Nowoczesne wsparcie technologiczne dla osób niewidomych
Nowoczesne technologie coraz częściej pomagają osobom niewidomym lub niedowidzącym lepiej rozumieć otaczający je świat. Jednym z narzędzi, które może znacząco wpłynąć na ich codzienne życie, jest oprogramowanie WorldScribe, stworzone przez naukowców z Uniwersytetu Michigan. To innowacyjne rozwiązanie, wykorzystujące sztuczną inteligencję (AI), opisuje to, co rejestruje kamera, w formie narracji dźwiękowej lub tekstowej, co ułatwia osobom z ograniczonym wzrokiem orientację w otoczeniu.
Opisy w czasie rzeczywistym
WorldScribe działa w czasie rzeczywistym, dostarczając opisy obiektów widocznych w polu widzenia kamery. Oprogramowanie to potrafi dostosować poziom szczegółowości opisu w zależności od komend użytkownika oraz czasu, przez jaki dany obiekt pozostaje w kadrze. Gdy użytkownik znajduje się w hałaśliwym otoczeniu, dźwięk automatycznie dostosowuje się do głośności otoczenia, co jest szczególnie przydatne w miejscach takich jak ulice czy zatłoczone pomieszczenia.
Doświadczenia uczestników testów
Podczas testów oprogramowania Sam Rau, uczestnik badania, który od urodzenia jest niewidomy, opisał swoje wrażenia z użycia WorldScribe jako niezwykle ekscytujące. Narzędzie to pozwoliło mu po raz pierwszy wyobrazić sobie kolory i tekstury, których normalnie nie miałby szansy doświadczyć. Jak sam przyznał, korzystanie z WorldScribe umożliwiło mu lepsze zrozumienie otoczenia bez konieczności poświęcania dużej ilości energii na próbę złożenia obrazu świata z fragmentów dostępnych mu informacji.
Elastyczność i zastosowanie w codziennym życiu
WorldScribe wykorzystuje modele językowe generatywnej sztucznej inteligencji, takie jak GPT-4, aby tworzyć szczegółowe opisy obiektów w otoczeniu użytkownika. Przykładowo, gdy użytkownik szuka konkretnego przedmiotu, np. laptopa, oprogramowanie priorytetowo opisuje wszystkie laptopy znajdujące się w polu widzenia kamery. Dzięki takiemu podejściu, narzędzie to staje się bardziej elastyczne i użyteczne w codziennym życiu osób niewidomych.
Testy laboratoryjne
Podczas testów narzędzie było wykorzystywane w laboratorium badawczym, gdzie uczestnicy wyposażeni w zestawy słuchawkowe i smartfony poruszali się po pomieszczeniu. Kamera telefonu przekazywała obraz do serwera, który niemal natychmiast generował opisy widocznych obiektów. Opisy te zmieniały się w zależności od tego, co znajdowało się w kadrze, przy czym najbliższe obiekty miały wyższy priorytet w narracji. Gdy uczestnik spojrzał na biurko, oprogramowanie opisało je krótko, ale po dłuższym zatrzymaniu wzroku na tym samym obiekcie, dostarczało bardziej szczegółowych informacji.
Różne poziomy szczegółowości opisu
System WorldScribe korzysta z trzech różnych modeli AI, aby dostosować szczegółowość opisów do sytuacji. Model YOLO World generuje proste opisy obiektów, które pojawiają się na krótko, podczas gdy bardziej rozbudowane opisy są dostarczane przez GPT-4. Istnieje także model Moondream, który oferuje opisy o średnim poziomie szczegółowości.
Potencjał przyszłych zastosowań
Jednym z wyzwań, przed jakimi stoją twórcy technologii, jest udoskonalenie narzędzia w taki sposób, aby stało się bardziej wygodne w codziennym użytkowaniu. Obecnie jest ono nieco nieporęczne, ale uczestnicy testów, jak Sam Rau, widzą ogromny potencjał w przyszłości. Rau zaznaczył, że gdyby WorldScribe było zintegrowane np. z inteligentnymi okularami, mógłby z niego korzystać na co dzień.
Ochrona patentowa i przyszłe plany
Naukowcy z Uniwersytetu Michigan, którzy stoją za stworzeniem WorldScribe, ubiegają się o ochronę patentową swojego rozwiązania i poszukują partnerów do współpracy w celu dalszego rozwoju i komercjalizacji technologii. WorldScribe ma potencjał, aby stać się jednym z najbardziej zaawansowanych narzędzi wspomagających osoby niewidome w codziennym funkcjonowaniu.