NEURONAUKOWCY PRZEKSZTAŁCILI FALE MÓZGOWE W MOWĘ WERBALNĄ

Ta sama technologia, która zasila twojego gadatliwego asystenta mobilnego, może kiedyś dać głos tym, którzy stracili zdolność mówienia. Jak donosi Renae Reints dla Fortune, neuronaukowcy z Columbia University niedawno dokonali znacznego postępu w kierunku tego futurystycznego celu, po raz pierwszy z powodzeniem przekształcając fale mózgowe w zrozumiałą mowę.

Badania zespołu, opublikowane w raportach naukowych, obejmują nieco niekonwencjonalne podejście. Zamiast bezpośrednio śledzić myśli w celu wytworzenia mowy, naukowcy zarejestrowali wzorce neurologiczne generowane przez badanych słuchających innych. Te fale mózgowe wprowadzono do vocodera - algorytmu sztucznej inteligencji, który syntetyzuje mowę - a następnie przekształcono w zrozumiałą, choć robotycznie brzmiącą mowę odzwierciedlającą frazy słyszane przez uczestników.

„Nasze głosy pomagają połączyć nas z przyjaciółmi, rodziną i otaczającym światem, dlatego utrata głosu z powodu obrażeń lub chorób jest tak druzgocąca” - mówi autor badania Nima Mesgarani, inżynier programu neurobiologii w Kolumbii oświadczenie. „Dzięki dzisiejszym badaniom mamy potencjalny sposób na przywrócenie tej mocy. Pokazaliśmy, że przy odpowiedniej technologii myśli tych ludzi mogą zostać zdekodowane i zrozumiane przez każdego słuchacza. ”

Warto zauważyć, według George'a Dvorsky'ego z Gizmodo, że naukowcy nie odkryli jeszcze, jak bezpośrednio tłumaczyć myśli wewnętrzne, zwane także mową wyobrażoną, na słowa. W tym idealnym scenariuszu osoby korzystające z technologii mowy po prostu wyobrażają sobie, co chcą powiedzieć, a następnie czekają, aż sztuczny system głosowy zwerbalizuje te myśli.

Nieżyjący już brytyjski fizyk Stephen Hawking wykorzystał podstawową wersję technologii syntezy mowy do komunikowania się z innymi. Jak pisze Nina Godlewski dla Newsweeka, u Hawkinga zdiagnozowano stwardnienie zanikowe boczne (ALS) w wieku 21 lat. Choroba neuronu ruchowego ostatecznie pochłonęła jego zdolności mowy, zmuszając go do użycia ręcznego pilota do uruchomienia mowy.

Kiedy Hawking stracił użycie rąk, przeszedł na system oparty na ruchach twarzy; Dvorsky z Gizmodo wyjaśnia dalej, że naukowiec użył przełącznika policzkowego podłączonego do okularów, aby wybrać słowa wypowiedziane przez syntezator głosu.

Zaawansowana iteracja tej technologii pomija środkowego człowieka, umożliwiając użytkownikom wytwarzanie mowy bez pomocy komputera lub systemu reagującego na ruch.

Dla porównania, jak zauważa Avery Thompson dla Popular Mechanics, badanie zespołu Columbia koncentruje się na tłumaczeniu „podsłuchanej mowy”. Badacze zrekrutowali pięciu pacjentów z padaczką, którzy mają poddać się operacji mózgu i poprosili ich o wysłuchanie szeregu wypowiadanych słów - na przykład nagrania kogoś zliczanie od zera do dziewięciu - podczas podłączania do neuronowych urządzeń monitorujących.

Fale mózgowe uchwycone przez te narzędzia zostały wprowadzone do wokodera, który syntetyzował mowę za pomocą sieci neuronowej wyszkolonej, zgodnie ze słowami Kristin Houser z Futuryzmu, do „oczyszczania” wyjścia i uczynienia dźwięków zrozumiałymi.

Następnie naukowcy poprosili 11 innych uczestników o wysłuchanie mowy z AI. Co znamienne, współautor badania Mesgarani podkreśla w oświadczeniu z Kolumbii, osoby te były w stanie „zrozumieć i powtórzyć” dźwięki w około 75 procentach czasu - „znacznie powyżej” częstotliwości obserwowanych we wcześniejszych eksperymentach. (Tutaj możesz samodzielnie ocenić nagrania.)

W wywiadzie dla Dvorsky'ego Gizmodo Mesgarani mówi, że on i jego koledzy mają nadzieję na syntezę bardziej złożonych fraz w najbliższej przyszłości. Naukowcy chcą również rejestrować sygnały mózgowe generowane przez badanych, którzy myślą lub wyobrażają sobie czyn mówienia, a nie tylko słuchanie wypowiedzi innych. Wreszcie, w oświadczeniu Mesgarani, zespół zamierza pewnego dnia przekształcić technologię w implant zdolny do przełożenia myśli użytkownika bezpośrednio na słowa.

Potencjalne ograniczenia nowych badań obejmują niewielką wielkość próby oraz, według neurobiologa z Newcastle University Andrew Jacksona, który nie był zaangażowany w badanie, fakt, że sieci neuronowe musiałyby zostać wprowadzone do ogromnej liczby sygnałów mózgowych od każdego nowego uczestnika w celu syntezy mowy poza liczbami od zera do dziewięciu.

„W przyszłości będzie ciekawie zobaczyć, jak dobrze dekodery wyszkolone dla jednej osoby uogólniają się na inne osoby” - mówi Gizmodo Jackson. „To trochę tak, jak wczesne systemy rozpoznawania mowy, które użytkownik musiał indywidualnie szkolić, w przeciwieństwie do dzisiejszych technologii, takich jak Siri i Alexa, które potrafią zrozumieć głos każdego użytkownika, ponownie za pomocą sieci neuronowych. Tylko czas pokaże, czy te technologie mogłyby kiedyś zrobić to samo dla sygnałów mózgowych. ”