Kann KI blinden Menschen helfen, ihre Umgebung in Echtzeit zu verstehen? Wissenschaftler aus Michigan erklären

Eine neue Software namens WorldScribe verspricht, das Leben von blinden und sehbehinderten Menschen zu revolutionieren. Entwickelt von Forschern der University of Michigan, beschreibt sie in Echtzeit die Umgebung – und macht Farben und Texturen erlebbar.

forschung, menschen, blind
Revolution für blinde Menschen? Eine neue Erfindung könnte Erleichterungen schaffen.


Stell dir vor, du könntest als blinde Person plötzlich die Farben und Texturen um dich herum "hören" – genau das könnte bald Realität werden! WorldScribe, eine neu entwickelte Software, nutzt künstliche Intelligenz (KI), um Bilder von einer Kamera in Text- und Sprachausgaben zu verwandeln. Das Ziel? Blinde Menschen sollen ihre Umgebung schneller und detaillierter wahrnehmen können, ohne sich auf das eigene Vorstellungsvermögen verlassen zu müssen.

Das Ganze funktioniert so: Eine Kamera nimmt alles auf, was sich im Sichtfeld befindet. Diese Bilder werden dann in Echtzeit von der Software verarbeitet, die daraus Beschreibungen generiert. Und das Beste daran: Je länger man ein Objekt anschaut, desto detaillierter wird die Beschreibung! Ein kurzer Blick auf den Schreibtisch reicht vielleicht für „Laptop“, aber eine längere Betrachtung könnte dann etwas wie „grauer Laptop mit aufgeklapptem Bildschirm“ liefern.

Individuell anpassbar

Das Tolle an WorldScribe: Es lässt sich individuell anpassen. Die Software nutzt verschiedene KI-Modelle, die sich je nach Situation und Bedarf umschalten lassen. Für einen schnellen Überblick reicht oft eine simple Beschreibung wie „Tisch“ oder „Lampe“. Wenn der Nutzer aber genauer hinschaut oder mehr Details wünscht, wechselt das System zu einem detaillierteren Modus. Dafür sorgt ein Sprachmodell, das selbst kleinste Details beschreibt – zum Beispiel, ob ein Ordner auf dem Tisch liegt oder welche Farbe die Wände im Raum haben.

Noch cooler: Die Lautstärke der Sprachausgabe passt sich automatisch an die Umgebungsgeräusche an. Egal, ob man sich auf einer lauten Straße oder in einem Café mit Hintergrundmusik befindet – die Software sorgt dafür, dass die Nutzer immer alles klar verstehen.

Testen und Staunen

Die Entwickler haben die Software bereits in ersten Tests ausprobiert. Sam Rau, der von Geburt an blind ist, durfte als einer der Ersten WorldScribe testen – und war völlig begeistert. „Ich habe keinen Begriff von Sehen, aber durch die Software konnte ich plötzlich eine Vorstellung von Farben und Texturen bekommen. Das war einfach unglaublich“, schwärmte er.

Sam beschreibt, wie er mit einem Headset, das mit einem Smartphone verbunden war, durch das Labor der Universität ging. Alles, was die Kamera erfasste, wurde ihm live beschrieben: „Da ist ein Laptop auf dem Schreibtisch, ein paar Papiere daneben, und an der Wand hängen Bilder.“ Es fühlte sich für ihn so an, als könne er endlich eine vollständige Vorstellung seiner Umgebung entwickeln, ohne sich die Details selbst mühsam „zusammenreimen“ zu müssen.

Immer flexibel: Detail oder Überblick?

Die größte Stärke von WorldScribe ist wohl die Flexibilität. Der Nutzer kann selbst entscheiden, wie viel Information er haben möchte. Es gibt verschiedene „Beschreibungsstufen“, die durch verschiedene KI-Modelle realisiert werden. Möchte man nur schnell wissen, was direkt vor einem steht, liefert das „YOLO World“-Modell kurze und knappe Informationen. Für detailliertere Beschreibungen greift die Software auf ein komplexeres KI-Modell zurück, das in der Lage ist, Objekte ganz genau zu analysieren – so detailliert, dass man selbst die Struktur eines Stuhls beschrieben bekommt!

Doch ganz perfekt ist die Software noch nicht. In den Tests hatten einige blinde Nutzer Schwierigkeiten, kleinere Objekte, wie zum Beispiel eine Augentropfenflasche, korrekt identifizieren zu lassen. Hier müssen die Entwickler also noch ein wenig nachbessern. Aber schon jetzt sind sich viele Testpersonen einig: Wenn WorldScribe einmal in tragbaren Geräten wie smarten Brillen eingebaut wird, könnte es zum täglichen Begleiter werden.

KI als Schlüssel zur Inklusion

Im Vergleich zu anderen Hilfsmitteln für Blinde geht WorldScribe einen entscheidenden Schritt weiter. Während viele bestehende Technologien nur spezifische Aufgaben erfüllen – wie zum Beispiel das Vorlesen von Texten oder das Navigieren in Gebäuden –, bietet diese Software eine umfassendere Unterstützung. Es geht nicht nur um das Erkennen von Objekten, sondern darum, ein vollständiges Bild der Umgebung zu schaffen.

Der große Vorteil von WorldScribe liegt darin, dass es auf moderne generative KI (kurz: GenAI) zurückgreift. Das bedeutet, dass die Software selbst auf spontane Anfragen reagieren kann. Frag die Software zum Beispiel nach der nächstgelegenen Tasse, und sie wird dir sofort beschreiben, wo sie sich befindet. Solche flexiblen Interaktionen sind bei herkömmlichen Systemen oft nicht möglich, da diese für einzelne, vorprogrammierte Aufgaben entwickelt wurden.

Zukunftsaussichten: Smarte Brillen und mehr

Zwar ist WorldScribe aktuell noch nicht marktreif, aber die Entwickler arbeiten bereits an Verbesserungen. Ein großes Ziel ist es, die Software in tragbare Geräte zu integrieren, wie smarte Brillen. Die Idee dahinter: Anstatt ein Smartphone oder ein anderes Gerät mit sich herumzutragen, sollen die Nutzer künftig einfach ihre Brille aufsetzen und schon wird die Umgebung in Echtzeit beschrieben.

Rau, der die Software in den Tests genutzt hat, sieht großes Potenzial: „Noch ist die Technik etwas sperrig, aber wenn sie erst einmal in eine Brille eingebaut ist, könnte ich sie mir als täglichen Begleiter vorstellen.“

Die Forscher der University of Michigan haben bereits einen Patentantrag gestellt und suchen jetzt nach Partnern, um WorldScribe weiterzuentwickeln und auf den Markt zu bringen. Wer weiß – vielleicht wird die Welt für Blinde bald so viel greifbarer und hörbarer wie nie zuvor.

Klar ist: Diese Technologie könnte für blinde und sehbehinderte Menschen eine kleine Revolution bedeuten und ihren Alltag enorm erleichtern. Ein Tool, das nicht nur die Gegenstände beschreibt, sondern auch hilft, die Welt in all ihrer Komplexität zu erleben – das ist die Zukunft, die WorldScribe verspricht.