UŚMIECH, ZMARSZCZENIE BRWI, GRYMAS I UŚMIECH - TWÓJ WYRAZ TWARZY TO KOLEJNA GRANICA W BIG DATA | INNOWACJE | SMITHSONIAN - ARTYKUŁY, INNOWACJE, INNOWATORZY, TECHNOLOGIA, NAUKA, LUDZKIE ZACHOWANIE

Ludzka twarz jest napędzana, w zależności od tego, jak ją policzymy, od 23 do 43 mięśni, z których wiele przyczepia się do skóry, nie pełniąc żadnej oczywistej funkcji przeżycia. Obcy badający osobniki ludzkie w odosobnieniu nie wiedziałby, co z nimi zrobić. Ściągając czoło, brwi, usta i policzki, mięśnie przekazują bogactwo informacji o naszym stanie emocjonalnym, poziomie zainteresowania i czujności. Jest to niezwykle skuteczny środek komunikacji - prawie natychmiastowy, zwykle dokładny, przekraczający większość barier językowych i kulturowych. Ale czasami dane są tracone, ignorowane lub źle interpretowane. Jeśli drwal uśmiecha się w lesie, gdy nikogo nie ma, by go zobaczyć, czy rzeczywiście był szczęśliwy?

Z tej historii

[×] ZAMKNIJ

Tak długie emotikony. Naukowiec rozwija technologię, która może wykrywać i czytać nasze wyrażenia

Wideo: Smithsonian Ingenuity Awards 2015: Rana el Kaliouby

Powiązane odczyty

Preview thumbnail for video 'Emotional Intelligence: Why It Can Matter More Than IQ

Inteligencja emocjonalna: dlaczego może mieć znaczenie większe niż IQ

Kupować

Rana el Kaliouby nie lubi patrzeć, jak te informacje marnują się. Spotykając el Kaliouby w jej małym biurze w Waltham w stanie Massachusetts, widzę, jak zaciska jej mięsień zygomaticus, podnosząc kąciki ust, i orbicularis oculi, marszcząc zewnętrzne kąciki oczu. Uśmiecha się, a ja wywnioskuję, że mnie wita, zanim jeszcze usłyszy słowo „cześć”. Jednak wiele dzisiejszych wymian społecznościowych odbywa się bez interakcji twarzą w twarz w czasie rzeczywistym. Tam właśnie wchodzi El Kaliouby i jej towarzystwo.

El Kaliouby, który ma 37 lat, często się uśmiecha. Ma okrągłą, miłą, wyrazistą twarz i troskliwy sposób, co podkreśla jej pozycję jako współzałożyciela szybko rozwijającego się start-upu technologicznego - anty-Bezos, nie-Zuckerberga. Jej firma Affectiva, którą założyła w 2009 roku wraz z ówczesnym kolegą z MIT Media Lab, Rosalind Picard, zajmuje pozycję najnowocześniejszej technologii wykorzystywania komputerów do wykrywania i interpretacji mimiki ludzkiej. To pole, znane jako „przetwarzanie afektywne”, ma na celu zlikwidowanie luki komunikacyjnej między ludźmi a maszynami poprzez dodanie nowego trybu interakcji, w tym niewerbalnego języka uśmiechów, uśmiechów i uniesionych brwi. „Założeniem tego, co robimy, jest to, że emocje są ważne”, mówi el Kaliouby. „Emocje nie zakłócają naszego racjonalnego myślenia, ale kierują nim i informują o nim. Ale brakuje ich w naszym cyfrowym doświadczeniu. Twój smartfon wie, kim jesteś i gdzie jesteś, ale nie wie, jak się czujesz. Chcemy to naprawić. ”

Dlaczego Twój smartfon musi wiedzieć, jak się czujesz? El Kaliouby ma wiele odpowiedzi, wszystkie oparte na pozornie bezgranicznej integracji komputerów z codziennym życiem. Przewiduje „technologię sterowania oświetleniem, temperaturą i muzyką w naszych domach w odpowiedzi na nasze nastroje” lub aplikacje, które mogą dostosować treść filmu na podstawie twoich podświadomych reakcji na niego podczas oglądania. Wyobraża sobie programy, które mogą monitorować Twoją ekspresję podczas jazdy i ostrzegać przed nieuwagą, sennością lub gniewem. Uśmiecha się na wspomnienie swojego ulubionego pomysłu - „lodówki, która wyczuwa, kiedy jesteś zestresowana i zamyka lody”.

W szczególności uważa, że Affectiva, a technologia, która pomaga wprowadzić ją do głównego nurtu, będzie dobrodziejstwem dla opieki zdrowotnej. Badacz testujący nowy lek lub terapeuta leczący pacjenta otrzymuje informacje zwrotne tylko w odstępach czasu, z zastrzeżeniem wszystkich problemów związanych ze zgłaszaniem siebie - na przykład nieświadomej chęci zadowolenia lekarza lub selektywnego przypominania, które sprzyja najnowszym wspomnieniom . El Kaliouby wyobraża sobie program działający w tle laptopa lub telefonu badanego, który mógłby z dnia na dzień skompilować zapis jego nastroju w danym okresie czasu (dzień, miesiąc) i skorelować go z czas lub cokolwiek innego, co urządzenie może mierzyć lub śledzić. „To nawet nie musiałoby być częścią programu leczenia”, zastanawia się. „Możesz mieć go po prostu na telefonie, a on mówi ci, za każdym razem, gdy„ X ”wywołuje negatywny wyraz, a to mówi ci coś, czego mogłeś nie wiedzieć.”

Subskrybuj teraz magazyn Smithsonian za jedyne 12 USD

Ta historia pochodzi z grudniowego wydania magazynu Smithsonian.

Kupować

El Kaliouby promuje przetwarzanie afektywne jako logiczny następny krok w przechodzeniu od klawiatury do myszy, ekranu dotykowego i rozpoznawania głosu. Wiosną Affectiva wydała swój pierwszy zestaw do tworzenia oprogramowania komercyjnego, który programiści zainteresowani stanami emocjonalnymi użytkowników w czasie rzeczywistym mogą włączyć do swoich własnych programów - na przykład odtwarzaczy muzycznych lub gier lub aplikacji randkowych. I właśnie tej jesieni Affectiva uruchomiła Emotion As a Service, program w chmurze, do którego klienci mogą przesyłać filmy do analizy. Kto może tego użyć? Kandydat, który ma zostać przesłuchany do pracy, który martwi się, że będzie niespokojny, znudzony, a nawet uśmiechnie się za dużo. Lub linia lotnicza zatrudniająca stewardes z setkami aplikacji wideo do przeszukania w poszukiwaniu tych, którzy potrafią poradzić sobie z przekonującym uśmiechem, gdy żegnają pasażerów. (Prawdziwy uśmiech, który wiąże się ze skurczem mięśni w kącikach oczu, nazywa się uśmiechem „Duchenne'a”, nazwanym na cześć XIX-wiecznego anatoma; jego przeciwieństwo, wymuszony uśmiech, który używa tylko ust, jest czasami nazywany uśmiechem „Pan Am”).

I oczywiście urządzenia z tym oprogramowaniem są podłączone do Internetu, dzięki czemu gromadzone przez nich informacje są natychmiast agregowane, przesiewane i łączone w sieci w sposób, w jaki aplikacje społecznościowe identyfikują popularne tematy lub osobowości. Być może skompilowany w coś w rodzaju Affectiva Mood Index, numerycznej oceny szczęścia narodowego brutto, lub podzielony na regiony, w których trendy uśmiechów i zmarszczek są obecnie popularne.

Podstawowy program Affectiva analizuje twarz 20 razy na sekundę pod kątem 46 zlokalizowanych wyrazów szczęścia, smutku, zaskoczenia, strachu, gniewu, obrzydzenia i pogardy, a także zainteresowania i zamieszania. (Naomi Shavin / Smithsonian)

Do tej pory głównymi klientami Affectiva były firmy reklamowe, marketingowe i medialne. Jego oprogramowanie automatyzuje proces prowadzenia grupy fokusowej, uciążliwego rytuału gromadzenia kilkunastu osób w pokoju, aby wyrażać swoje opinie na temat nowego produktu, serialu telewizyjnego lub kampanii reklamowej; rejestruje reakcje bezpośrednio, bez konieczności przekręcania pokrętła lub odpowiadania na kwestionariusz w odpowiedzi na prezentację. Co więcej, oprogramowanie rozszerza potencjalną grupę fokusową na cały świat lub przynajmniej znaczną jej część, która ma komputer lub urządzenie mobilne z obsługą kamery internetowej.

Informacje zwrotne od nieustępliwego, wszechwidzącego oka Affectiva pomogły ukształtować telewizyjny serial telewizyjny, skazując dwie postacie na zapomnienie z powodu grzechu, który nie wywołuje uśmiechu widzów. (El Kaliouby nie zidentyfikuje serialu ani bohaterów.) Jego oprogramowanie zostało użyte do zbudowania „próbnika uśmiechu”, maszyny, która wydawała batoniki kupującym, którzy uśmiechali się do kamery. Dalsze badania mogą być przydatne do monitorowania tłumu na lotniskach, do identyfikacji potencjalnych złodziei sklepowych lub jako wykrywacz kłamstw.

Ale el Kaliouby oparł się tym tajnym aplikacjom, jakkolwiek by to nie były lukratywne. Uważa, że informatyka afektywna zmieni świat, w tym, ale nie wyłącznie, sprzedaż batoników. „Etos naszej firmy”, mówi, „polega na wykorzystaniu tej technologii do poprawy życia ludzi i pomocy w lepszej komunikacji, a nie tylko po to, by reklamodawcy mogli sprzedawać więcej produktów”.

**********

W przeciwieństwie do wielu przedsiębiorców technologicznych wzbogacenie się nie było w pierwotnym programie El Kaliouby. Urodzona w Kairze w egipskich rodzicach, którzy oboje pracują w technologii, studiowała informatykę na American University w Kairze, gdzie ukończyła studia w 1998 r., Mniej więcej w tym czasie komputery stały się wystarczająco potężne, aby naukowcy mogli pomyśleć o nadaniu im tego, czym są ludzie. nazywany inteligencją emocjonalną.

Kontynuowała studia informatyczne na uniwersytecie w Cambridge, przybywając zaraz po atakach na Amerykę 11 września 2001 r. Jej rodzice sądzili, że z powodu jej dziedzictwa ryzykuje aresztowaniem, nękaniem lub gorszym. Ale choć jeszcze kilka lat temu nosiła nakrycie głowy muzułmanina, ani w Cambridge, w Anglii, ani w Cambridge w stanie Massachusetts, gdzie przeprowadziła się w 2006 r., Aby dołączyć do MIT Media Lab, czy kiedykolwiek martwiła się swoją religią lub wyglądem . „Myślę, że to dlatego, że dużo się uśmiecham”, mówi z uśmiechem.

Francuski anatom Duchenne opublikował przełomowe badania dotyczące mimiki ludzkiej. (Obrazy Bridgemana)

Podczas pobytu w Cambridge zainteresowała się problemem autyzmu, a zwłaszcza trudnościami, jakie dzieci autystyczne mają z czytaniem wyrazu twarzy. Zaproponowała zbudowanie „emocjonalnego aparatu słuchowego”, który mógłby być noszony do czytania twarzy i wskazywania odpowiednich zachowań użytkownikowi. Odrzucona na początku przez grant National Science Foundation, ponieważ projekt był zbyt trudny, ona i jej koledzy zbudowali prototyp, składający się z pary okularów wyposażonych w mały aparat, migające światła i słuchawki, podobnie jak wczesna wersja Google Glass. Drugi wniosek o dotację zakończył się powodzeniem, a po przeprowadzce do MIT, ona i jej zespół pracowali przez następne trzy lata, aby udoskonalić i przetestować go w szkole na Rhode Island. El Kaliouby opisuje to jako „projekt badawczy, który okazał się sukcesem” - autystyczne dzieci, które go wykorzystały, miały przeważnie pozytywne doświadczenia - ale w 2008 r., Kiedy dotacja zakończyła się, stanęła przed chwilą rozrachunku. Zainteresowanie komercyjne komputerami afektywnymi rosło i chciała, aby rozwijało się ono i rozwijało; włożenie wysiłku w opracowanie okularów ograniczyłoby go do niewielkiego kawałka jego potencjalnych zastosowań. Dlatego wraz z Picardem wydzieliła Affectiva, mając jednocześnie nadzieję, że inna firma odbierze emocjonalny aparat słuchowy i wprowadzi go na rynek.

Gdy utworzono Affectiva, garstka „członków zespołu” tworzących firmę wybrała wartość, którą chcieli wcielić, na przykład „naukę”, „odpowiedzialność społeczną” lub „zabawę”. Jej, jako dyrektor ds. Strategii i nauki, była „pasją”. 20-osobowa firma jest prowadzona jako quasi-demokracja, z odbywającymi się co pół roku spotkaniami, podczas których pracownicy głosują nad priorytetami do realizacji w ciągu najbliższych sześciu miesięcy. Jej biuro ma tablicę pokrytą rysunkami młodej córki jednego z jej kolegów; ma 6-letniego syna Adama i 12-letnią córkę Jana, która mieszka z nią na przedmieściach Bostonu (ich ojciec mieszka w Egipcie). Jej zachowanie jest łagodne i troskliwe; Godzinę przed porannym spotkaniem proponuje zamówić kanapkę dla gościa, nawet jeśli sama pomija lunch. „Dla mnie to Ramadan”, mówi z uśmiechem, „ale dla ciebie to nie Ramadan”.

Siedzi gości przy biurku, twarzą do monitora i kamery internetowej; oprogramowanie lokalizuje twarz gościa i rysuje wokół niego ramkę na ekranie. Określa zestaw punktów do śledzenia: kąciki oczu i ust, czubek nosa i tak dalej. Dwadzieścia razy na sekundę oprogramowanie szuka „jednostek akcji”, często przelotnej gry mięśni na twarzy. Jest ich 46, zgodnie ze standardowym systemem klasyfikacji, Facial Action Coding System (FACS). Obejmują one wewnętrzne i zewnętrzne unośniki brwi, dimplery, mrugnięcia, mrugnięcia i zmarszczki warg, lejki, prasy i ssanie. Standardowy program Affectiva pobiera około 15 z nich w dowolnym momencie i analizuje je pod kątem siedmiu podstawowych emocji: szczęścia, smutku, zaskoczenia, strachu, gniewu, wstrętu i pogardy, a także zainteresowania i zamieszania. Uśmiechnij się, a zobaczysz, jak rośnie szczęście; zwijaj wargę w szyderstwie, a program zauważa twoje obrzydzenie.

A ściślej wyraz obrzydzenia. Cała przesłanka informatyki afektywnej opiera się na skoku wiary, że uśmiech daje poczucie szczęścia, przyjemności lub rozrywki. Oczywiście ludzie są w tej samej sytuacji: możemy dać się zwieść fałszywemu uśmiechowi lub udawanemu gniewowi, więc nie możemy oczekiwać od programu komputerowego więcej, przynajmniej jeszcze nie.

Z czasem Affectiva stworzyło archiwum ponad trzech milionów filmów przedstawiających twarze, przesłane przez internautów rekrutowanych z około 75 krajów na całym świecie. Setki tysięcy z nich zostały przeanalizowane przez wyszkolonych obserwatorów i zakodowane dla jednostek akcji FACS - monumentalne przedsięwzięcie, ponieważ filmy trwają średnio około 45 sekund i każde z nich zajmuje około pięć razy więcej czasu. Z kolei wyniki koderów ludzkich wykorzystano do „wyszkolenia” algorytmów firmy, które przetwarzały resztę w czasie rzeczywistym. Cała baza danych zawiera obecnie około 40 miliardów „punktów danych emocji”, zasób, którym cieszy się el Kaliouby, który wyróżnia Affectiva na tle innych firm z tej samej branży, takich jak Emotient z Kalifornii, prawdopodobnie jego najbliższy konkurent.

(Wykres: Infografika 5W; Źródło: Daniel McDuff, MIT Media Lab, Affectiva)

Daniel McDuff, który dołączył do Affectiva z MIT Media Lab i pełni funkcję dyrektora badań, nieustannie analizuje tę ścieżkę, aby uzyskać dodatkowe informacje na temat wyrażania emocji. Czym różnią się pod względem wieku, płci i kultury? (Być może zaskakujące, McDuff odkrył, że starsi ludzie są bardziej ekspresyjni, szczególnie pozytywnych emocji, niż młodsi.) Czy możemy wiarygodnie zmierzyć pogardę, zakłopotanie, nudę, lęk? Kiedy zmarszczenie brwi sygnalizuje zamieszanie, a kiedy wskazuje na koncentrację? Jak odróżnić wyraz strachu od wyrazu zaskoczenia? (Wskazówka: Jednostka akcji 1, „wewnętrzny podnośnik brwi”, jest markerem strachu; jednostka akcji 2, „zewnętrzny podnośnik brwi”, oznacza zaskoczenie.) Jest, jak mówi, wszelkie powody, by wierzyć, że program będzie kontynuowany aby lepiej wykrywać wyrażenia (chociaż nigdy nie może całkowicie pokonać największej przeszkody ze wszystkich: botoksu).

Na moją prośbę McDuff podarował programowi jeden z wielkich klasycznych problemów związanych z wykrywaniem emocji, Monę Lisę, której zagadkowy quasi-uśmiech intrygował widzów od 500 lat. Z zastrzeżeniem, że oprogramowanie działa najlepiej na zmieniających się wyrazach, a nie na obrazach statycznych, stwierdził, że nie znalazł żadnych dowodów prawdziwego uśmiechu La Giocondy, ale raczej pewną kombinację jednostki akcji 28 (przewrócenie warg) i 24 (wargi zaciśnięte razem), prawdopodobnie sugerując pewien poziom dyskomfortu.

**********

„Rozmawiam teraz z tobą”, mówi el Kaliouby, „i obserwuję, jak oceniasz swoje zainteresowanie tym, co mówię. Czy powinienem zwolnić i wyjaśnić więcej? Czy powinienem przejść do innego tematu? Teraz wyobraź sobie, że prowadzę seminarium internetowe dla dużej grupy, której nie widzę ani nie słyszę. Nie dostaję opinii, nie ma sposobu, aby stwierdzić, czy żart zadziałał, czy upadł, czy ludzie są zaangażowani lub znudzeni. Czy nie byłoby wspaniale otrzymywać informacje zwrotne w czasie rzeczywistym, agregowane, od momentu do momentu, gdy idę? ”

Gra reklamę Jibo, „robota społecznego”, który można zamówić w przedsprzedaży na stronie internetowej Indiegogo o finansowaniu tłumu i opracowanej przez byłą koleżankę MIT, Cynthię Breazeal. Wyglądając jak nowoczesna lampa lawowa, Jibo siada na stole i skanuje otoczenie, identyfikując osoby poprzez twarz i wchodząc z nimi w interakcję - przekazując wiadomości, wysyłając przypomnienia, rutynowo dzwoniąc, a nawet rozmawiając. To kolejna potencjalna aplikacja dla oprogramowania Affectiva - firmy prowadzą rozmowy - i „bardzo ekscytująca perspektywa”, mówi el Kaliouby.

Niektóre są ekscytujące, ale perspektywa robotów przetwarzających emocje jest niepokojąca dla innych. Sherry Turkle, która od dawna studiuje relacje ludzi z komputerami, ostrzega w swojej nowej książce Reclaiming Conversation: The Power of Talk in a Digital Age, o „mechanicznym momencie”, kiedy maszyny zaczynają zastępować ludzkie towarzystwo. Turkle uważa, że naukowcy tacy jak el Kaliouby i jej zespół mogą robić to, co im się podoba. „To są genialni, utalentowani ludzie wykonujący świetną robotę” - mówi. I zgadza się, że w pewnych kontekstach - w niebezpiecznych środowiskach, takich jak przestrzeń kosmiczna lub w pobliżu ciężkich maszyn, gdzie chcesz zaciągnąć każdy możliwy sposób komunikacji - przetwarzanie afektywne ma do odegrania pewną rolę. „Ale następny krok”, mówi, „wcale nie podąża. Następnym krokiem jest: Zaprzyjaźnijmy się z robotem. Przeprowadziłem wywiady z rodzicami, którzy są szczęśliwi, że ich dzieci rozmawiają z Siri i myślę, że to nie prowadzi nas drogą, którą chcemy iść. Definiujemy siebie jako istoty ludzkie, z którymi się kojarzymy i nie ma dla mnie sensu kształtowanie poczucia własnej wartości w odniesieniu do maszyny. Dlaczego chcesz, żeby komputer wiedział, że jesteś smutny?

Nawet el Kaliouby jest skłonna zgodzić się, że „spędzamy więcej czasu niż powinniśmy z naszymi urządzeniami”, mając oczywiście na uwadze jej preteen córkę, której wzrok blokuje się na ekranie smartfona.

Uważa jednak tendencję do coraz większej łączności za nieodwracalną i uważa, że chociaż użytkownicy zawsze powinni się zdecydować, równie dobrze możemy to zrobić. Przewiduje, że nasze urządzenia będą miały „czip emocjonalny i zestaw aplikacji, które wykorzystują go w sposób, który wnosi do naszego życia wystarczającą wartość, która przewyższa obawy ludzi związane z udostępnianiem tych danych”. Analogia do urządzeń GPS: przetwarzanie afektywne może Pomóż nam poruszać się w przestrzeni emocjonalnej w taki sam sposób, jak aplikacje telefoniczne pomagają nam poruszać się w przestrzeni fizycznej. „Wszyscy martwili się także o urządzenia wykrywające lokalizację, kiedy po raz pierwszy się pojawili: naruszali naszą prywatność, cały czas nas śledzili” - mówi. „Tylko teraz wszyscy zgubilibyśmy się bez Map Google na naszych telefonach. Myślę, że tak będzie. ”

**********