https://frosthead.com

Pożegnanie z barierami językowymi

Od dawna uniwersalny tłumacz jest obsesją popkultury. Star Trek przedstawia to jako urządzenie ręczne, przypominające mikrofon, które może natychmiast przetłumaczyć większość języków . Przewodnik Autostopowicza po Galaktyce szczyci się rybą Babel, stworzeniem, które po wsunięciu do ucha oferuje natychmiastowe tłumaczenie dowolnego języka w galaktyce.

Nie powinno więc dziwić, że współcześni ludzie próbują stworzyć urządzenie, które działa równie dobrze. Istnieją dziesiątki aplikacji do tłumaczenia na smartfony, ale większość tłumaczy słowa na zasadzie „jeden do jednego”; użytkownik pisze lub wypowiada słowo, a aplikacja odsyła je z tłumaczeniem. Teraz celem i prawdziwą gratką pieniężną jest umożliwienie inżynierom i przedsiębiorcom prowadzenia rozmów w różnych językach, podczas gdy małe urządzenie wyrzuca tłumaczenia w czasie rzeczywistym.

Istniejące aplikacje tłumaczeniowe

Podczas podróży do Grecji anglojęzyczny Andrew Lauder zachorował.

„Poszedłem do apteki, a oni nie rozumieli żadnego angielskiego, więc nie dostałem meds”, mówi Lauder, CEO Vocre Translate. Etykiety narkotyków były dla niego dosłownie greckie. Bariery językowe są powszechne wśród podróżujących po świecie. W obcym kraju drobne transakcje, takie jak kupowanie lekarstw lub uzyskiwanie wskazówek dojazdu - kolejna trudność, przed którą stanął Lauder - stają się herculeańskimi zadaniami.

Kiedy wrócił do Stanów, Lauder stworzył Vocre Translate, aplikację do tłumaczenia głosu i tekstu. Zaczęło się od aplikacji typu tekst na tekst (zwanej MyLangauge), a następnie początkowo przekształciło się w model syntezatora mowy, który podobnie jak inne aplikacje, w tym SayHi Translate, wykorzystywał tradycyjny model, w którym słowo przekłada się bezpośrednio na inne słowo. Powiedz „Cześć”, a smartfon lub tablet odezwie się zautomatyzowanym „Hola”. „Do widzenia” zmienia się w „Sayonara”. I tak dalej, podobnie jak tłumacz tekstowy.

Aby stworzyć proste tłumaczenie audio, twórcy tych aplikacji potrzebowali danych. Vocre wyciągnął informacje z nagrań i dokumentów należących do domeny publicznej, takich jak stare filmy lub przesłuchania publiczne. „Zasadniczo poprosiliśmy o usługę transkrypcji poczty głosowej, abyśmy mogli wykorzystać ich chmurę do rozpoznawania mowy” - mówi Lee Bossier, CEO SayHi.

Gdy inżynierowie mieli dane audio i tekstowe, połączyli audio i tekst słowo w słowo. Oprogramowanie do rozpoznawania głosu rozpoznaje „ser” i przekształca go w tekst. To jest konwertowane na francuski, a aplikacja znajduje francuską wymowę „forage”.

To powiedziawszy, jeśli użytkownik bezczelnie nazywa coś „tandetnego”, tłumacz również nie działa, ponieważ język mówiony nie jest tak statyczny jak język pisany. Kadencja, slang, fleksja, wymowa, dialekt i konwersacja mogą zmieniać znaczenie

Z czasem jednak Lauder chciał bardziej konwersacyjnego urządzenia. W e-mailu mówi: „Na podstawie naszych danych o użytkowaniu stwierdziliśmy, że ludzie mówią inaczej niż to, co piszą. Słowo mówione jest o wiele bardziej spontaniczne i znacznie mniej formalne i dosłowne. ”Dlatego zastosował statystyczne tłumaczenie maszynowe, podejście stosowane również przez Google, które wykorzystuje dane do wyszukiwania powszechnego użycia słów, rezygnując z tradycyjnego modelu tłumaczenia słów na słowa. Zasadniczo Vocre uczy się, jak jest używany. „Uczy się na podstawie każdej rozmowy, każdej frazy, która przez nią przechodzi. To z czasem staje się mądrzejsze ”- mówi Lauder.

Obecnie obie aplikacje potrzebują kilku sekund na przetłumaczenie, ale bez wątpienia są skuteczne, szczególnie w połączeniu z mową ciała, w rozmowach transakcyjnych, takich jak zamawianie posiłku. W końcu ludzie od lat zamawiają jedzenie w obcych językach i zawsze udaje im się jeść. Ale nie byli w stanie prowadzić dogłębnych, złożonych rozmów.

W przypadku Vocre i SayHi rozmowy mogą sztywno się chodzić, ale to nie to samo, co rozmowy w ojczystym języku. Google zamierza to całkowicie zmienić.

Podejście Google (statystyczne tłumaczenie maszynowe)

Ucząc się nowego języka w szkole, zaczynamy od indywidualnych terminów słownictwa. Ale język jest bardziej płynny - słowa potrzebują kontekstu.

„Podejście [Google] jest bardziej ogólne”, mówi Josh Estelle, inżynier oprogramowania w Google Translate. „Zamiast próbować na stałe zakodować wszystkie te reguły, staramy się poznać reguły, patrząc na dane”.

Firma technologiczna unika metody „jeden do jednego” słowo w słowo i zamiast tego stosuje statystyczne tłumaczenie maszynowe, nie patrząc na to, co oznaczają słowa, ale jak modelowany jest język, którego uczy się na podstawie danych . Więc ma na celu las, a nie drzewa. Przykład w języku angielskim: znamy definicje słowa „zerwanie” i „up”. Ale wyrażenie „zerwanie” nie jest dosłowną kombinacją dwóch słów.

Statystyczne tłumaczenie maszynowe wymaga danych. Góry. Aby metoda zadziałała, potrzebny jest nie tylko fakt, że „fromage” to francuski ser, ale 100 przykładów zarówno „fromage”, jak i sera używanych w rzeczywistych zdaniach.

Estelle mówi, że jeśli mówiący po angielsku ma dwa menu, identyczne, z wyjątkiem tego, że wydrukowano je po angielsku i jedno po chińsku, „prawdopodobnie możesz dowiedzieć się, czym jest chiński znak„ zupa ”. Kontekst jest królem. Ale aby stworzyć ten kontekst, potrzebujesz dostępu do milionów menu i wszystkich innych możliwych do wyobrażenia dokumentów.

Właśnie to ma Google. Bez internetowego giganta, który zbierałby mnóstwo danych, ryba Babel w świecie rzeczywistym nie mogłaby istnieć. Przeszukuje sieć i zbiera wszystko - tekst i dźwięk. Następnie przekazuje te dane do algorytmów, które porównują wszystko ze wszystkim innym. Te porównania pomagają zrozumieć, jak język naturalnie działa.

„Jedną z rzeczy, która zaskakuje ludzi, kiedy rozmawiamy o Tłumaczu, jest to, że nasz zespół nie ma żadnych lingwistów”, mówi Estelle. „Wprowadziliśmy 71 języków i powiedziałbym, że nasz zespół nie umie mówić w zdecydowanej większości z nich. Ludzki tłumacz nie będzie w stanie nauczyć się tych wszystkich terminów i rzeczy tak szybko, jak nasze [dane] mogą się nauczyć z Internetu. ”

Jaki jest sens?

Podobnie jak Google, Facebook widzi korzyści. Zastanów się nad własnym tłumaczeniem witryny społecznościowej.

„Misją Facebooka jest łączenie całego świata, a jedną z barier łączenia świata nie jest to, że wszyscy mówią tym samym językiem”, mówi Tom Stocky, dyrektor ds. Inżynierii na Facebooku. „Jeśli chodzi o tłumaczenie, myślę, że naprawdę ambitną wizją przyszłości jest wykorzystanie Facebooka w swoim ojczystym języku i interakcja z dowolnym innym językiem.”

W sierpniu Facebook nabył Jibbigo, aplikację do tłumaczenia mowy na mowę, dostępną na urządzenia z Androidem i iOS.

Zapaleni użytkownicy Facebooka zauważą, że serwis społecznościowy korzysta już z tłumaczenia. Jeśli kiedykolwiek miałeś hiszpański post na swojej angielskiej stronie, od razu masz możliwość przetłumaczenia go na swój język ojczysty.

Ale Stocky postrzega komponent głosowy jako potencjalną zmianę gry. Pojawienie się smartfonów i tabletów z zadowoleniem przyjmuje nieustannie połączony świat, a powstanie oprogramowania do rozpoznawania mowy zachęca do nowych sposobów interakcji w sieci. Stocky przewiduje przyszłość, w której użytkownicy będą mogli wypowiadać polecenia na smartfony i wchodzić w interakcje z innymi użytkownikami, pomijając różnice językowe.

„Nie ma wątpliwości, że w końcu to się stanie, ponieważ jedynymi ograniczeniami są moc silnika językowego i oczywiście czas przetwarzania i moc przetwarzania”, mówi.

Laura Murphy, profesor w dziale globalnych systemów opieki zdrowotnej i rozwoju na Uniwersytecie Tulane i uznana sceptyczka technologiczna, kwestionuje wartość uniwersalnego tłumacza i nie musi znać więcej niż jednego języka.

Uważa, że ​​to urządzenie może być nieco przydatne w podróżach, relacjach biznesowych i międzynarodowych, ale nie jest przełomowe. Na pewnym poziomie mamy już tłumaczy (ludzi), a większość osób pracujących w stosunkach zagranicznych zna odpowiednie języki. Murphy uważa, że ​​urządzenie może mieć negatywne konsekwencje.

„Myślę, że może to powodować lenistwo” - mówi Murphy. Tłumaczenie języków może być trudne psychicznie, zmuszając mózg - zwłaszcza taki, który zna więcej niż dwa języki - do pracy w inny sposób, ale ćwiczenie to jest jednak satysfakcjonujące. Mózg wyciąga się z miejsca empatii językowej, do której nawet najlepszy tłumacz głosowy nigdy by nie dotarł.

Chociaż ta uniwersalna komunikacja może być pozytywna, Murphy przyznaje, że „może prowadzić do myślenia, że ​​komunikują się, kiedy nie są.” Kultura nie zawsze jest całkowicie wcielona w język (na przykład sarkazm), a komunikacja nie jest zawsze o przekazywanych informacjach.

Kiedy możemy się spodziewać tej technologii?

„W 2005 roku zajęło nam 40 godzin, aby przetłumaczyć 1000 zdań”, mówi Estelle z Google. „Dzisiaj tłumaczymy równowartość 1000 zdań co 10 milisekund”.

Jak słynie Richard Anderson w serialu telewizyjnym z lat sześćdziesiątych Sześć milionów dolarów, „Mamy technologię”. Teraz chodzi tylko o czekanie na zbieranie i analizę danych. Według Estelle nie wiadomo, jak długo to potrwa. Jednak ostrożne szacunki podają takie urządzenie w nasze ręce w ciągu dekady.

Chociaż twórcy aplikacji, tacy jak Bossier lub gigantyczne firmy, takie jak Google i Facebook, nie chcą budować własnych wersji Biblijnej Wieży Babel, chcą położyć kres bełkotom. Przewiduje świat, w którym wszyscy się komunikujemy, o medycynie, o polityce, o ideach.

I ten świat może nie być daleko.

Nota redaktora: Zaktualizowaliśmy tę historię 4 kwietnia 2014 roku, aby dokładnie opisać technologię Vocre Translate.

Pożegnanie z barierami językowymi