WYSZUKIWARKA, KTÓRA DOPASOWUJE TWOJE RYSUNKI DO ZDJĘĆ, NIE JEST ZBYT DALEKO | INNOWACJE | SMITHSONIAN - ARTYKUŁY, INNOWACJE, TECHNOLOGIA

Kilka tygodni temu byłem w centrum handlowym, kiedy zauważyłem kobietę niosącą świetną torebkę z linowym paskiem. Ponieważ jestem na rynku, by kupić nową torbę, zastanawiałem się, czy nie zapytać jej, skąd ją ma. Ale zanim zdążyłem wykonać ruch, zniknęła za rogiem. Kiedy wróciłem do domu, wypróbowałem torbę Googling. Ale nie jestem fashionistką i stwierdziłam, że nie mam słownictwa, aby opisać to, co widziałam. „Skórzana torebka ze sznurkiem” nie była w porządku. Ani też „torebka z rączką” ani „torba z paskiem”. W końcu się poddałem.

Teraz nowa technologia ma na celu pomóc ludziom w wyszukiwaniu rzeczy, których niekoniecznie muszą opisać słowami.

James Hays, informatyk z Georgia Institute of Technology, stworzył program komputerowy zdolny do dopasowywania ręcznie rysowanych obrazów do zdjęć. Może to ostatecznie doprowadzić do powstania programu, który może przeczesywać internetowe usługi wyszukiwania obrazów, takie jak Grafika Google, i znajdować zdjęcia, które dokładnie pasują do rysunków użytkowników.

„Celem jest powiązanie lub dopasowanie zdjęć i szkiców w obu kierunkach, tak jak człowiek może”, mówi Hays. „Człowiek widzi źle narysowany szkic i zastanawia się, do którego zdjęcia pasuje. Chcemy mieć te same możliwości obliczeniowe. ”

Aby stworzyć program, Hays zatrudnił prawie 700 pracowników z Amazon Mechanical Turk, rynku crowdsourcingowego, który dopasowuje pracowników do osób, które wymagają wykonania zadań. Jego zespół pokazał robotnikom zdjęcia zwykłych przedmiotów i zwierząt, takich jak wiewiórki, czajniki i banany, pozwalając im patrzeć na obraz przez dwie sekundy. Pracownik następnie narysuje obiekt z pamięci. Zespół ostatecznie zebrał ponad 75 000 szkiców 12 500 obiektów. Nazwali to „Szkicową bazą danych”.

Następnie program przeanalizował szkice i dopasował je do fotografii, które najbardziej przypominały. Technologia zidentyfikowała prawidłowe zdjęcie w 37 procentach przypadków. Dla porównania, ludzie mieli rację przez około 54 procent czasu. Chociaż 37 procent może nie wydawać się imponujące, w rzeczywistości jest to duży skok dla komputerów.

„Ludzie są już tak zaskakująco dobrzy w widzeniu, że bez trudu rozpoznajemy obrazy” - mówi Hays. „W rzeczywistości jest to zaskakująco trudne obliczeniowo”.

Jednym z głównych wyzwań związanych z udoskonaleniem programu jest to, że większość ludzi jest kiepskimi artystami. Jak napisał Hays i jego zespół w artykule na ten temat: „Kształty i łuski są zniekształcone. Części przedmiotowe są karykaturowane (duże uszy na słoniu), antropomorfizowane (uśmiechnięte usta na pająku) lub uproszczone (kończyny o sylwetkach). ”

Historycznie, badania nad rozpoznawaniem szkiców przez komputery koncentrowały się na takich elementach, jak rozkład linii na rysunku, kierunek, w którym linie idą lub gdzie są granice rysunku. Ale ponieważ ludzie rysują tylko to, co jest dla ludzi ważne (na przykład oczy są zawsze uwzględniane w szkicach, nawet jeśli są stosunkowo małe), ważne jest, aby komputer „uczył się”, jak szkice są podobne i jak mają tendencję do różnić się od zdjęć. W tym celu program wykorzystuje dwie oddzielne sieci, jedną, która ocenia szkice, drugą, która ocenia zdjęcia. Dzięki ciągłej analizie dużego zbioru danych program może się „uczyć”.

Hays i jego zespół planują dalsze ulepszanie programu poprzez dodawanie danych. Postępy w nauce komputerowej powinny również pomóc w poprawie wskaźników dopasowania. Na razie program ma dość wysoki współczynnik dopasowania podczas porównywania szkiców z bazami danych zdjęć w Internecie, w tym z Flickr, choć trudno jest to oszacować, mówi Hays.

Oprócz wyszukiwania obrazu torebki, którego tak bardzo potrzebuję, program ma wiele mniej błahych potencjalnych zastosowań. Policja mogła skanować podejrzane szkice i porównywać je z bazą zdjęć kryminalnych. Z programu mogą korzystać osoby, które mówią i piszą w dowolnym języku lub w ogóle nie potrafią pisać.

„Jednym z celów zrozumienia szkiców jest to, że są one dość uniwersalnym językiem”, mówi Hays. „Nie jest związany z konkretnym językiem pisanym i wcale nie jest związany z umiejętnością czytania i pisania. [Taki program może przynieść] dostęp do informacji bez języka pisanego. ”

Program można również wykorzystać artystycznie do tworzenia fotorealistycznych scen ze szkiców. Zawsze wyobrażałeś sobie życie w zamku na Księżycu? Narysuj go, a program może pewnego dnia stworzyć dla ciebie zdjęcie, łącząc ze sobą fragmenty innych zdjęć.

Hays twierdzi, że informacje zebrane przez Haysa i jego zespół mogą pomóc w rozwiązaniu niektórych pytań z zakresu neurologii i psychologii.

„Te pary szkic-zdjęcie mówią coś o ludzkiej percepcji, o tym, co naszym zdaniem jest istotne, o tym, jakie części obrazów przyciągają naszą uwagę”, mówi Hays. „W pewnym sensie ta baza danych koduje to całkiem dobrze. Można z tego coś wyśmiać, jeśli chcesz powiedzieć coś o samych ludziach. ”