„MONA LISA” OŻYWA W WYGENEROWANYM KOMPUTEROWO „ŻYWYM PORTRECIE” | INTELIGENTNE WIADOMOŚCI | SMITHSONIAN - INTELIGENTNE WIADOMOŚCI, INTELIGENTNE WIADOMOŚCI KULTURA I SZTUKA, INTELIGENTNE WIADOMOŚCI I INNOW

Seria o Harrym Potterze przyzwyczaiła świat do żywych portretów z rozmownymi obrazami i ruchomymi fotografiami. Ale w zeszłym tygodniu, kiedy wygenerowany przez AI „żywy portret” Mona Lisa Leonarda da Vinci zaczął robić obchód w Internecie, wiele osób było zaskoczonych, gdy słynny portret poruszył ustami i rozejrzał się.

Animowany portret Lisy Gherardini był jednym z kilku nowych „gadających modeli głowy” - bardziej powszechnie znanych jako „głębokie płatki” - stworzonych przez naukowców z AI Center Samsunga w Moskwie i Instytutu Nauki i Technologii Skolkovo. Wykorzystując tylko kilka ram odniesienia lub nawet pojedynczy obraz, badacze wykonali również głębokie ciasteczka gwiazd takich jak Oprah, ożywiły pojedyncze migawki Marilyn Monroe i Alberta Einsteina oraz stworzyli nowe wyrażenia dla słynnych obrazów, takich jak Dziewczyna Vermeera z perłą .

Naukowcy opublikowali swoją metodę, którą nazywają „uczeniem się kilku ujęć”, na YouTube oraz w artykule, który jeszcze nie został poddany recenzji w repozytorium preprint arXiv.org. Podczas gdy szczegóły stają się dość techniczne, Mindy Weisberger z LiveScience donosi, że do tworzenia żywych portretów rodzaj sztucznej inteligencji zwanej konwolucyjną siecią neuronową trenuje się poprzez analizę obrazów referencyjnych. Następnie stosuje ruchy twarzy z serii ramek do statycznego obrazu, takiego jak Mona Lisa . Im więcej kątów i obrazów referencyjnych, tym lepszy staje się żywy portret. Według artykułu sztuczna inteligencja może wytworzyć „doskonały realizm” (mierzony zdolnością człowieka do rozróżnienia, który z trzech zestawów obrazów to fake) przy użyciu zaledwie 32 obrazów referencyjnych.

Mona Lisa jest oczywiście tylko jednym obrazem, więc trzy „żywe portrety” arcydzieła Leonarda są nieco niepokojące. W przypadku krótkich animacji sieć neuronowa obserwowała trzy różne filmy szkoleniowe, a każda z trzech wersji Mona Lisa opartych na tych klatkach wydaje się mieć inną osobowość. Gdyby Leonardo namalował swój słynny model pod różnymi kątami, system mógłby stworzyć jeszcze bardziej realistyczny żywy portret.

Podczas gdy animowana Mona Lisa jest zabawna, wzrost liczby płatków wywołuje obawy, że komputerowe podobieństwa mogą zostać wykorzystane do zniesławienia ludzi, podsycenia napięć rasowych lub politycznych i dalszego osłabienia zaufania do mediów internetowych. „Hej, podważamy nasze zaufanie do wszystkich filmów, także tych autentycznych”, pisze John Villasenor z The Brookings Institution. „Sama prawda staje się nieuchwytna, ponieważ nie możemy już być pewni tego, co jest prawdziwe, a co nie”.

Podczas gdy sztuczna inteligencja jest wykorzystywana do tworzenia głębokich podróbek, Villasenor mówi, że przynajmniej na razie może być również używana do identyfikacji głębokich podróbek poprzez szukanie niespójności, które nie są widoczne dla ludzkiego oka.

Tim Hwang, dyrektor Harvard-MIT Ethics and Governance of AI Initiative, mówi Gregory Barber w Wired, że nie jesteśmy w momencie, w którym źli aktorzy mogą tworzyć wyrafinowane koktajle na swoich laptopach. „Nic nie sugeruje mi, że po prostu użyjesz tego do generowania frytek w domu”, mówi. „Nie w perspektywie krótko-, średnioterminowej, a nawet długoterminowej”.

Jest tak, ponieważ korzystanie z nowego systemu Samsunga jest drogie i wymaga wiedzy specjalistycznej. Ale artykuł Barbera wskazuje, że nie potrzeba super-wyrafinowanego fotorealistycznego wideo nakręconego przez sieć neuronową, aby oszukać ludzi. Tylko w zeszłym tygodniu zmanipulowane wideo, które zostało spowolnione, aby sprawić, że mówca Nancy Pelosi z amerykańskiego domu zostanie upity, pojawiło się w sieciach społecznościowych.

W końcu jednak technologia będzie na tyle dobra, że źli aktorzy będą w stanie wytwarzać podróbki, tak przekonujące, że nie można ich wykryć. Kiedy ten dzień nadejdzie, Hwang mówi Wiredowi, że ludzie będą musieli polegać na sprawdzaniu faktów i kontekstowych wskazówkach, aby ustalić, co jest prawdziwe, a co fałszywe. Na przykład, jeśli pół-uśmiech Mony Lisy staje się szczękowy, a ona próbuje sprzedać ci wybielającą pastę do zębów, z pewnością jest to fake.