W ciągu ostatnich kilku dziesięcioleci badacze regularnie opracowywali urządzenia przeznaczone do tłumaczenia amerykańskiego języka migowego (ASL) na angielski, mając nadzieję na ułatwienie komunikacji między osobami głuchymi i niedosłyszącymi a światem słyszącym. Wiele z tych technologii wykorzystuje rękawice do rejestrowania ruchu podpisywania, który może być nieporęczny i niewygodny.
Teraz grupa naukowców z Michigan State University (MSU) opracowała urządzenie bez rękawiczek wielkości tubki Chapstick, które, jak mają nadzieję, poprawi tłumaczenie ASL-angielski.
Technologia o nazwie DeepASL wykorzystuje urządzenie kamery do rejestrowania ruchów rąk, a następnie przekazuje dane za pomocą algorytmu głębokiego uczenia, który dopasowuje je do znaków ASL. W przeciwieństwie do wielu poprzednich urządzeń, DeepASL może tłumaczyć całe zdania zamiast pojedynczych słów i nie wymaga od użytkowników przerwy między znakami.
„To naprawdę nieinwazyjna technologia” - mówi Mi Zhang, profesor elektrotechniki i informatyki, który kieruje badaniami.
Zhang i jego zespół mają nadzieję, że DeepASL może pomóc osobom niesłyszącym i niedosłyszącym, służąc jako tłumacz w czasie rzeczywistym. Zhang mówi, że może to być szczególnie przydatne w sytuacjach awaryjnych, gdy czekanie na tłumacza może kosztować cenne minuty. Zhang mówi, że urządzenie, które można zintegrować z telefonem, tabletem lub komputerem, może również pomóc w nauce ASL. Ponieważ ponad 90 procent głuchych dzieci rodzi się dla rodziców, którzy słyszą, istnieje duża społeczność dorosłych, którzy muszą szybko nauczyć się ASL. DeepASL może służyć jako nauczyciel cyfrowy, udzielając informacji zwrotnych na temat prawidłowego podpisywania się uczniów.
Zhang złożył wniosek o patent i ma nadzieję na wprowadzenie urządzenia na rynek w ciągu roku. Ponieważ jest oparty na niedrogiej technologii - system przechwytywania ruchu Leap Motion kosztuje 78 USD - może być bardziej dostępny niż poprzednie wysiłki.
Naukowcy Biyi Fang i Mi Zhang demonstrują DeepASL. (Michigan State University)Ale Christian Vogler, profesor studiów komunikacyjnych na Uniwersytecie Gallaudet, uniwersytecie dla osób niesłyszących lub niedosłyszących, jest sceptyczny wobec urządzeń zaprojektowanych do tłumaczenia ASL, a jego sceptycyzm podziela wiele osób ze społeczności Głuchych.
Vogler mówi, że urządzenia generalnie nie „tłumaczą” ASL, jedynie rozpoznają znaki ręczne i zamieniają je w angielskie słowa na znak. Oznacza to utratę kluczowych informacji gramatycznych, informacji o tym, czy wyrażenie jest pytaniem, zaprzeczenia, zdania względnego i tak dalej. Podczas gdy DeepASL tłumaczy pełne zdania, niektóre cechy gramatyki ASL wykraczają poza znaki ręki - mimiki twarzy są często używane jako modyfikatory, uniesienie brwi może przekształcić frazę w pytanie, a pozycja ciała może wskazywać, kiedy użytkownik ASL cytuje kogoś innego.
Jak dotąd „żaden z systemów nie był nawet zdalnie przydatny dla osób podpisujących”, mówi Vogler, dodając, że badacze często wydają się mieć „bardzo niewielki kontakt ze społecznością [Głuchych i niedosłyszących] i bardzo mało wyobrażenia o ich prawdziwym wymagania."
Zespół Zhanga nie testował urządzenia na ludziach głuchych i niedosłyszących, ale na uczniach w programie do tłumaczenia języka migowego. Zhang podkreśla, że DeepASL został zaprojektowany w celu umożliwienia jedynie podstawowej komunikacji w tym momencie i że jest to tylko miejsce początkowe. Mówi, że jego zespół ma nadzieję rozszerzyć możliwości DeepASL w przyszłości, aby uchwycić także mimikę twarzy.
„To będzie kolejny znaczący kamień milowy dla nas do osiągnięcia” - mówi.
Vogler twierdzi, że pozytywne jest to, że technologia MSU korzysta z metod głębokiego uczenia się, które odniosły sukces w mowie. Ale pomimo tego, że nie wymaga rękawicy, urządzenie prawdopodobnie ma takie same pułapki jak w każdym poprzednim systemie, ponieważ nie rejestruje ruchów twarzy i ciała.
Vogler uważa, że badacze powinni odejść od idei, że urządzenia do rozpoznawania języka migowego mogą naprawdę zaspokoić osobiste potrzeby komunikacyjne.
„Mamy wiele opcji ułatwiających komunikację osobistą i dopóki nie znajdziemy czegoś, co faktycznie szanuje właściwości językowe języków podpisanych i faktyczne zachowania komunikacyjne osób podpisujących, wysiłki te nie będą w żadnym wypadku zastępować ani zastępować ich” - mówi. „Zamiast tego ludzie muszą współpracować z rzeczywistymi członkami społeczności oraz z osobami, które rozumieją złożoność języków podpisanych”.
Vogler twierdzi, że przydałoby się, aby technologia rozpoznawania języka migowego, taka jak MSU, współpracowała z interfejsami głosowymi, takimi jak Alexa. Rozwój tych interfejsów stanowi wyzwanie w zakresie dostępności dla osób głuchych i niedosłyszących, mówi, podobnie jak internet - w dużej mierze wizualny - stanowił poważne wyzwanie dla osób niewidomych na przestrzeni lat.
„Obecnie nie mamy skutecznego i wydajnego sposobu interakcji z tymi interfejsami głosowymi, jeśli nie jesteśmy w stanie lub nie chcemy korzystać z naszego głosu”, mówi. „Rozpoznawanie języka migowego idealnie pasuje do tej sytuacji i może okazać się przydatne i przyzwyczajone”.