https://frosthead.com

Oprogramowanie tworzy jedno zdjęcie, które mówi wszystko

Każdego dnia użytkownicy przesyłają na Facebook ponad 350 milionów zdjęć. Ten napływ zdjęć spowodował, że analitycy oszacowali, że w ostatnim roku wykonano 10 procent z 3, 5 bln światowych zdjęć. Wszystkie te dane zalewające Internet oznaczają, że jeśli szukasz konkretnego obrazu lub obiektu - jak na przykład wygląda pomarańczowy pręgowany kot - to jesteś pozytywnie zalany wynikami wyszukiwania.

W ubiegłym miesiącu naukowcy z University of California w Berkeley zaprezentowali nowe oprogramowanie, AverageExplorer, które pozwoli użytkownikom zobaczyć „średni” obraz przedstawiający to, czego szukają. Zamiast zdjęcia o wartości tysiąca słów, jest to obraz o wartości tysiąca - lub więcej - zdjęć.

„Wchodząc do wyszukiwania grafiki Google, przeglądacie strony i strony obrazów”, wyjaśnia Jun-Yan Zhu, absolwent UC Berkeley i główny autor artykułu, zaprezentowany na tegorocznej Międzynarodowej Konferencji i Wystawie Grafiki Komputerowej i techniki interaktywne w Vancouver. „Jest to ogromne i trudne do podsumowania; nie możesz zrozumieć, co się dzieje. ”

W ramach swojej pierwszej oferty Zhu i jego zespół zgromadzili zdjęcia za pomocą wyszukiwania obrazów Flickr, Google i Bing. Oprogramowanie ma wystarczającą moc, aby działać na przeciętnym komputerze, i może jednocześnie rozbić około 10 000 obrazów.

Użytkownicy zawężają wyszukiwanie na kilka różnych sposobów. Mogą szkicować i pokolorować kształt, podobny do rysowania w programie Adobe Photoshop lub Illustrator, aby wyostrzyć wynik przeciętnego obrazu. Na przykład kolorowanie tła przeciętnego zdjęcia z Wieży Eiffla spowoduje automatyczne wybranie przeciętnego zdjęcia, aby wyciągnąć tylko zdjęcia wykonane w nocy. Lub możesz narysować linie pod kątem, aby kontrolować orientację motyla w kompozycie.

Most Westchnień, od dnia do nocy Udoskonalając kolory na obrazie Mostu Westchnień w serwisie AverageExplorer, możesz zmienić scenę z dnia na zmierzch na noc. (Dzięki uprzejmości UC Berkeley)

Po utworzeniu przeciętnego obrazu, który może potrwać nawet minutę, użytkownicy mogą dalej udoskonalać wynik, używając tego, co zespół nazywa trybem eksploratora. W tym trybie kliknięcie na określoną część obrazu - powiedzmy, nos kota - ujawni inne typowe opcje lub udoskonalenia tego miejsca - być może niebieskie lub czarne nosy, lub te, które są zaokrąglone zamiast kątowych. Na przykład w filmie demonstracyjnym zespół udoskonalił obraz dzieci na kolanach Świętego Mikołaja, wybierając tylko te zdjęcia, w których Święty Mikołaj ma jedno dziecko na każdym ramieniu.

Zhu twierdzi, że system zyska na sile, ponieważ jest narzędziem do szkolenia algorytmów widzenia komputerowego, takich jak te stosowane w Google Goggles lub aplikacjach Amazon Firefly, które mogą rozpoznać, na co wskazuje kamera. „W dziedzinie wizji komputerowej ludzie wydają dużo pieniędzy na opisywanie obiektów”, wyjaśnia. „Teraz możesz zastosować adnotację do przeciętnego obrazu. Chodzi o to, że wystarczy popracować nad jednym obrazem, aby rozpropagować wszystkie obrazy w zbiorze danych. ”

Znalezienie ras kotów Udoskonalając tryby wyników wyszukiwania, badacze mogą znaleźć określone rasy kotów, w tym (od lewej do prawej) Ragdoll, Syjamski, Maine Coon i Sfinks. (Dzięki uprzejmości UC Berkeley)

Tworzenie grafiki to nisko wiszący owoc dla AverageExplorer. Zespół zainspirował artystów z nowych mediów, takich jak Jason Salavon, który starannie wykonał ręcznie uśrednione fotografie. Można go również użyć do stworzenia wtyczki Facebooka, która pozwala użytkownikom majstrować przy przeciętnym obrazie siebie.

Aspiracje badaczy są jeszcze szersze i mają większy wpływ. Socjologowie mogą wykorzystać system do wykrywania i badania trendów społecznych; na przykład uśredniony obraz może udowodnić, że narzeczeni najczęściej stoją na prawo od pana młodego w portretach ślubnych. AverageExplorer może być także użytecznym narzędziem dla analityków medialnych próbujących analizować relacje telewizyjne - czy postawa Stephena Colberta zmienia się, gdy mówi o George'u W. Bushu i Baracku Obamie?

Umożliwiając użytkownikom intuicyjną interakcję z danymi wizualnymi zamiast wprowadzania poprawnego ciągu słów kluczowych, użytkownicy będą mogli łączyć to, co doradca Zhu i współtwórca AverageExplorer, Alexei Efros, nazywa „wąskim gardłem języka”.

Zespół wyobraża sobie zestaw niestandardowych narzędzi zaprojektowanych do konkretnych, trudnych do sformułowania zadań. Na przykład aplikacja do zakupów pozwoliłaby użytkownikowi przeskakiwać sieć dla pary obcasów o dokładnym kolorze, kształcie i wysokości obcasa, którego ona szuka. Zhu przewiduje narzędzie, które integruje się z procesem pracy twórców szkiców policyjnych, umożliwiając świadkowi przeszukiwanie baz danych twarzy w celu znalezienia elementów pasujących do sprawcy i stworzenia złożonego portretu.

Podstawowa wersja AverageExplorer zostanie wydana tej jesieni.

Oprogramowanie tworzy jedno zdjęcie, które mówi wszystko