https://frosthead.com

Jak sztuczna inteligencja może zrewolucjonizować badania muzeów archiwalnych

Kiedy myślisz o sztucznej inteligencji, dziedzina botaniki prawdopodobnie nie znajduje się w twoim umyśle. Gdy wyobrażasz sobie ustawienia dla najnowocześniejszych badań obliczeniowych, stuletnie muzea mogą nie znaleźć się na szczycie listy. A jednak, właśnie opublikowany artykuł w Biodiversity Data Journal pokazuje, że jedne z najbardziej ekscytujących i doniosłych innowacji w uczeniu maszynowym mają miejsce tylko w Narodowym Zielniku Narodowego Muzeum Historii Naturalnej w Waszyngtonie

Artykuł, który pokazuje, że cyfrowe sieci neuronowe są w stanie rozróżnić dwie podobne rodziny roślin o wskaźniku dokładności znacznie przekraczającym 90 procent, sugeruje wszelkiego rodzaju przepyszne możliwości dla naukowców i naukowców. Badanie opiera się na oprogramowaniu opartym na algorytmach „głębokiego uczenia się”, które umożliwiają programom komputerowym zdobywanie doświadczenia w taki sam sposób, jak robią to eksperci ludzcy, podnosząc poziom gry za każdym razem, gdy są uruchamiane. Wkrótce ta technologia mogłaby umożliwić analizy porównawcze milionów odrębnych okazów ze wszystkich zakątków globu - propozycja, która wcześniej wymagałaby niemożliwej do utrzymania ilości pracy ludzkiej.

„Ten kierunek badań pokazuje wiele obietnic” - mówi profesor Stanford Mark Algee-Hewitt, wybitny głos w cyfrowym ruchu humanistycznym i asystent dyrektora wydziału w Uniwersyteckim Centrum Analiz Przestrzennych i Tekstualnych. „Te metody są w stanie dostarczyć nam ogromnej ilości informacji o tym, co zawierają zbiory” - mówi - „dzięki temu udostępniają te dane”.

Te nowe odkrycia opierają się na latach pracy podjętej przez Smithsonian Institution w celu systematycznej digitalizacji swoich zbiorów w celu akademickiego i publicznego dostępu do Internetu oraz reprezentują niezwykłe interdyscyplinarne spotkanie umysłów: botanicy, eksperci w dziedzinie digitalizacji i naukowcy danych mieli do odegrania pewną rolę wyniki na światło.

Historia zaczyna się w październiku 2015 r., Kiedy instalacja aparatu i przenośnika taśmowego pod Muzeum Historii Naturalnej znacznie uprościła wysiłki na rzecz digitalizacji kolekcji botanicznej Smithsonian. Zamiast ręcznie skanować każdy wyciśnięty kwiat i kępę trawy w swoim repozytorium, pracownicy mogą teraz ustawiać w kolejce całe tablice próbek, pozwolić pasowi pracować swoją magią oraz wyszukiwać i ponownie katalogować je na końcu. Trzyosobowa załoga nadzorowała pas od czasu swojego debiutu i każdego roku przegląda około 750 000 okazów. Niedługo inwentaryzacja zielnika Smithsona, licząca pięć milionów okazów, będzie całkowicie dostępna online.

Każdy okaz jest oznaczony dokładną kartą identyfikacyjną, która zawiera informacje o jego pochodzeniu, a także niezbędne dane statystyczne. Treść tych kart została przepisana i przesłana wraz z obrazami cyfrowymi, zapewniając kompleksowy widok każdego elementu w kolekcji dla tych, którzy mają skłonność do szukania.

W zdigitalizowanym archiwum botanicznym Smithsonian obrazy okazów w wysokiej rozdzielczości są łączone z transkrypcjami nałożonych na nich przydatnych identyfikatorów. W zdigitalizowanym archiwum botanicznym Smithsonian obrazy okazów w wysokiej rozdzielczości są łączone z transkrypcjami nałożonych na nich przydatnych identyfikatorów. (Narodowe Muzeum Historii Naturalnej)

„Dzięki temu nasza kolekcja jest dostępna dla każdego, kto ma komputer i połączenie internetowe”, mówi Laurence Dorr, przewodniczący botaniki muzealnej, „co świetnie nadaje się do udzielania odpowiedzi na niektóre pytania.” Mimo to Dorr stwierdził, że nie mógł pozbyć się niewykorzystanego potencjału . Oczywiście, ogromne ilości próbek danych były teraz dostępne dla społeczności online, ale analiza ich zbiorczo pozostała fantazyjna. Wyszukiwanie konkretnych okazów i małych kategorii okazów było dość łatwe, ale Dorr zastanawiał się, czy istnieje sposób na wykorzystanie danych do wyciągnięcia wniosków na temat tysięcy okazów. „Co możesz zrobić z tymi danymi?” Wspomina, zastanawiając się. Mężczyzna o imieniu Adam Metallo wkrótce udzielił przekonującej odpowiedzi.

Metallo, oficer z biura programu digitalizacji Smithsona, uczestniczył w konferencji, na której gigant technologiczny NVIDIA - ulubieniec graczy na całym świecie - prezentował procesory graficzne lub procesory graficzne nowej generacji. Metallo szukał sposobów na ulepszenie możliwości cyfrowego renderowania 3D Smithsona, ale był to w dużej mierze niepowiązany samorodek informacji, który przykuł jego uwagę i utknął z nim. Powiedziano mu, że oprócz generowania dynamicznych, wysokiej jakości wizualizacji 3D procesory graficzne NVIDIA doskonale nadają się do analizy dużych zbiorów danych. W szczególności wzmocnione procesory graficzne były właśnie tym, co było potrzebne do intensywnego cyfrowego rozpoznawania wzorców; wiele algorytmów uczenia maszynowego zostało zoptymalizowanych dla platformy NVIDIA.

Metallo był natychmiast zaintrygowany. Ta technologia „głębokiego uczenia się”, wdrożona już w niszowych sektorach, takich jak samodzielne opracowywanie samochodów i radiologia medyczna, miała ogromny potencjał dla świata muzeów - który, jak zauważa Metallo, stanowi „największy i najstarszy zestaw danych, do którego mamy teraz dostęp do."

„Co to oznacza dla dużych zbiorów danych, które tworzymy w Smithsonian poprzez digitalizację?” Metallo chciał wiedzieć. Jego pytanie doskonale odzwierciedlało pytanie Laurence'a Dorra, a gdy połączyły się ze sobą, iskry zaczęły latać. „Kolekcja botaniki była jedną z największych kolekcji, nad którymi ostatnio pracowaliśmy” - wspomina Metallo. Współpraca zasugerowała się.

Podczas gdy wiele form uczenia maszynowego wymaga od badaczy oznaczenia kluczowych markerów matematycznych na analizowanych obrazach - żmudny proces, który sprowadza się do trzymania komputera za rękę - współczesne algorytmy głębokiego uczenia mogą nauczyć się, jakich markerów szukać w pracy, oszczędzając czas i otwarcie drzwi na zapytania na większą skalę. Niemniej jednak napisanie programu głębokiego uczenia się specyficznego dla Smithsona i skalibrowanie go pod kątem dyskretnych pytań z badań botanicznych było trudnym przedsięwzięciem - Dorr i Metallo potrzebowali pomocy badaczy danych, aby urzeczywistnić ich wizję.

Badacze danych opracowują próbki treningowe dla sieci neuronowej podczas tego, co pamięta Paul Frandsen Badacze danych opracowują próbki treningowe dla sieci neuronowej podczas tego, co Paul Frandsen pamięta jako „zimny styczniowy dzień”. (Narodowe Muzeum Historii Naturalnej)

Jednym ze specjalistów, których przywieźli na pokład, był Paul Frandsen, naukowiec z badań Smithsonian, który od razu dostrzegł potencjał w tworzeniu sieci neuronowej zasilanej przez GPU NVIDIA, aby wykorzystać ją w kolekcji botaniki. Dla Frandsena ten projekt symbolizował kluczowy pierwszy krok w kierunku wspaniałej i nieodkrytej ścieżki. Wkrótce mówi: „zaczniemy szukać wzorców morfologicznych w skali globalnej i będziemy w stanie odpowiedzieć na te naprawdę duże pytania, które tradycyjnie zajmowałyby tysiące lub miliony ludzkich godzin, przeglądając literaturę i klasyfikowanie rzeczy. Będziemy mogli używać algorytmów, które pomogą nam znaleźć te wzorce i dowiedzieć się więcej o świecie. ”

Właśnie opublikowane wyniki są uderzającym dowodem koncepcji. Badanie, opracowane przez dziewięcioosobowy zespół kierowany przez botanika badawczego Erica Schuettpelza i naukowców danych Paula Frandsena i Rebeccę Dikow, ma na celu odpowiedzieć na dwa duże pytania dotyczące uczenia maszynowego i zielnika. Pierwszym jest skuteczność wyszkolonej sieci neuronowej w sortowaniu próbek zabarwionych rtęcią od próbek nieskażonych. Drugi, najważniejszy punkt artykułu, to skuteczność takiej sieci w różnicowaniu członków dwóch powierzchownie podobnych rodzin roślin - mianowicie rodzin sprzymierzonych paproci Lycopodiaceae i Selaginellaceae .

Pierwsza próba wymagała od zespołu przeprowadzenia z wyprzedzeniem tysięcy okazów, z definitywnym stwierdzeniem, które z nich zostały wyraźnie zanieczyszczone rtęcią (pozostałość przestarzałych technik konserwacji botanicznej). Chcieli mieć pewność, że ze 100-procentową pewnością wiedzieli, które zostały wybarwione, a które nie - inaczej ocena dokładności programu nie byłaby możliwa. Zespół wybrał prawie 8 000 zdjęć czystych próbek i 8 000 innych zabarwionych próbek, z którymi można trenować i testować komputer. Zanim skończyli dostosowywać parametry sieci neuronowej i wycofali wszelką ludzką pomoc, algorytm kategoryzował próbki, których nigdy wcześniej nie widział z 90-procentową dokładnością. Jeśli wyrzucone zostaną najbardziej niejednoznaczne okazy - np. Te, w których barwienie było minimalne i / lub bardzo słabe - liczba ta wzrosła do 94 procent.

Wynik ten sugeruje, że oprogramowanie do głębokiego uczenia może wkrótce pomóc botanikom i innym naukowcom uniknąć marnowania czasu na żmudne zadania sortowania. „Problem nie polega na tym, że człowiek nie jest w stanie ustalić, czy próbka jest zabarwiona rtęcią”, wyjaśnia Metallo, ale raczej, że „trudno jest ręcznie posortować i dowiedzieć się, gdzie występuje zanieczyszczenie”, i nie jest to sensowne rób to z punktu widzenia zarządzania czasem. Na szczęście uczenie maszynowe może przekształcić znaczny spadek czasu w maksymalnie kilka dni szybkiej automatycznej analizy.

Przesuwanie próbek pojedynczo wymaga dużo energii i utrudnia wyciąganie wniosków na dużą skalę. Teraz analiza dużych zbiorów danych zapewnia muzeom nowe sposoby podejścia do swoich zbiorów. Przesuwanie próbek pojedynczo wymaga dużo energii i utrudnia wyciąganie wniosków na dużą skalę. Teraz analiza dużych zbiorów danych zapewnia muzeom nowe sposoby podejścia do swoich zbiorów. (Arnold Arboretum)

Część badania dotycząca dyskryminacji gatunków jest jeszcze bardziej ekscytująca. Badacze przeszkolili i przetestowali sieć neuronową z około 9300 maczugami klubowymi i 9100 próbkami spikemoss. Podobnie jak w przypadku eksperymentu barwienia, około 70 procent tych próbek wykorzystano do wstępnej kalibracji, 20 procent użyto do udoskonalenia, a ostatnie 10 procent użyto do formalnej oceny dokładności. Po zoptymalizowaniu kodu wskaźnik sukcesu komputera w rozróżnianiu dwóch rodzin wyniósł 96 procent - i prawie idealny 99 procent, jeśli pominięto najtrudniejsze próbki.

Frandsen spekuluje, że pewnego dnia takie programy mogłyby poradzić sobie ze wstępną kategoryzacją okazów w muzeach na całym świecie. „W żadnym wypadku nie sądzę, że te algorytmy zrobią wszystko, aby zastąpić kuratorów”, szybko zauważa, „ale zamiast tego myślę, że mogą one pomóc kuratorom i osobom zaangażowanym w systematykę w zwiększeniu produktywności, aby mogli dużo wykonywać swoją pracę. szybciej."

Sukces sieci neuronowej w tym badaniu toruje również drogę do szybkiego testowania hipotez naukowych w ogromnych kolekcjach. Dorr dostrzega w wynikach zespołu możliwość przeprowadzenia rozległych porównań morfologicznych próbek cyfrowych - porównań, które mogą prowadzić do znaczących przełomów naukowych.

Nie oznacza to, że głębokie uczenie się będzie srebrną kulą w badaniach we wszystkich dziedzinach. Mark Algee-Hewitt ze Stanford zwraca uwagę, że „prawie niemożliwe jest zrekonstruowanie, dlaczego i jak sieć neuronowa podejmuje decyzje” po jej uwarunkowaniu; ustalenia pozostawione programom komputerowym powinny zawsze być nieskomplikowane i możliwe do zweryfikowania z natury, jeśli można im ufać.

„Oczywiście”, mówi Dorr, autonomiczny program komputerowy, „który nie zamierza testować związków genetycznych, tego typu rzeczy” - przynajmniej w najbliższym czasie. „Ale możemy zacząć uczyć się o rozkładzie cech według regionu geograficznego lub według jednostki taksonomicznej. I to będzie naprawdę potężne. ”

Przede wszystkim badania te są punktem wyjścia. Oczywiste jest teraz, że technologia głębokiego uczenia się jest bardzo obiecująca dla naukowców i innych naukowców na całym świecie, a także dla ciekawskich odbiorców, dla których wytwarzają wiedzę. Pozostaje rygorystyczna kontynuacja pracy.

„To mały krok”, mówi Frandsen, „ale to krok, który naprawdę mówi nam, że te techniki mogą działać na zdigitalizowanych okazach muzealnych. Jesteśmy podekscytowani tym, że w ciągu kilku najbliższych miesięcy uruchomimy kilka kolejnych projektów, aby spróbować jeszcze bardziej przetestować jego ograniczenia. ”

Jak sztuczna inteligencja może zrewolucjonizować badania muzeów archiwalnych