BIG DATA WŁAŚNIE SIĘ POWIĘKSZYŁO, GDY WATSON IBM SPOTYKA ENCYKLOPEDIĘ ŻYCIA | U SMITHONA | SMITHSONIAN - ARTYKUŁY, W SMITHSONIAN, NOWE BADANIA W SMITHSONIAN, INNOWACJE, TECHNOLOGIA, NAUKA, NASZA PL

Po 2000 latach ostateczna encyklopedia życia znajduje się u progu nowej ery opartej na danych. Grant z National Science Foundation został przyznany The Encyclopedia of Life (EOL), IBM i Georgia Institute of Technology. Grant umożliwi przetwarzanie ogromnych ilości danych i indeksowanie ich w taki sposób, aby umożliwić przełomową naukę.

powiązana zawartość

Proponowany nowy system rezerwatów morskich oferuje różowe perspektywy zarówno dla homara, jak i rybaka homara

W 77 roku ne Pliniusz Starszy zaczął pisać pierwszą na świecie encyklopedię, historię naturalną. Obejmowało wszystko od astronomii przez botanikę po zoologię i antropologię. Pliniusz próbował umieścić wszystko, co mógł osobiście zgromadzić na temat świata przyrody, w jednym dziele pisanym. Przez ostatnie 2000 lat długi szereg naukowców zainspirowanych Pliniuszem realizował tę samą wizję.

Pliny zawierało 20 000 tematów w 36 tomach, ale natrafiło na ograniczenia tego, co jedna osoba może odkryć, nagrać i przetworzyć w ciągu ludzkiego życia. Zmarł podczas erupcji Wezuwiusza, zanim mógł dokończyć ostateczną edycję swojego dzieła magnum. Nawet w swojej erze jedna osoba nie mogła przeczytać wszystkich książek, nauczyć się wszystkich rzeczy i wyjaśnić tego światu.

Jak później naukowcy, redaktorzy i bibliotekarze odkryli w świecie, który z każdym rokiem dodaje coraz więcej wiedzy na piśmie, nawet jeśli można przechowywać wszystkie światowe książki i badania w jednym budynku, wyzwaniem jest udostępnienie wszystkich istotnych informacji naukowcy podczas ograniczeń ich krótkiego życia ludzkiego.

EOL może to zmienić, stosując najnowocześniejszą moc obliczeniową do rozbieżnego gromadzenia danych biologicznych. Projekt jest bezpłatnym i otwartym cyfrowym zbiorem faktów, artykułów i multimediów dotyczących różnorodności biologicznej, jednym z największych na świecie. EOL z siedzibą w Smithsonian Institution oraz 357 partnerami i dostawcami treści, w tym Harvard University i New Library of Alexandria w Egipcie, powiększył się z 30 000 stron po uruchomieniu w 2008 r. Do ponad 2 milionów, z 1, 3 milionami stron tekstu, map, wideo, audio i zdjęcia oraz obsługuje 20 języków.

„Przyjechałem do Smithsonian w 2010 roku z branży oprogramowania”, mówi dyrektor EOL Bob Corrigan. „Jednym z odkryć, które tu dokonałem, jest to, że chociaż IT jest wszędzie, nie przeniknęło do świata muzeów w taki sam sposób, jak do świata komercyjnego. Szczególnie w biologii najważniejsze dane zostały zakopane w podręcznikach i arkuszach kalkulacyjnych. ”

Jak można łączyć i wydobywać dane biologiczne w różnych formach, aby uzyskać nowe informacje na temat życia na Ziemi? Co jeśli dane dotyczące, powiedzmy, różnorodności biologicznej motyli w Afryce przez dekadę zostały połączone z danymi na temat praktyk rolniczych i opadów? Czy można się czegoś nauczyć? Aby to zrobić, potrzeba czegoś większego niż ludzki mózg. Coś jak superkomputer Watson IBM.

„IBM przyczynia się do wysiłku i dostępu do wersji [Watson], która nie jest publicznie dostępna”, mówi Jennifer Hammock, dyrektor programowy EOL. „Będą też zatrudniać ludzi. IBM robi to jako wkład niepieniężny. ”

Watson to superkomputer, który nie tylko łamie liczby w dużych ilościach. Wykorzystuje sztuczną inteligencję, aby umożliwić użytkownikom zadawanie pytań prostym językiem.

„Powiedziałbym, że z punktu widzenia użytkownika oznacza to, że baza danych jest czymś, do czego możesz podejść i zadać pytanie tak, jakbyś był człowiekiem”, mówi Hammock. „Czy możesz mi powiedzieć, czy ten fioletowy motyl występuje w Afryce?”

„Odpowiedź na proste pytanie w dowolnym języku zakłada istnienie dużej wiedzy za kulisami” - mówi Corrigan. „Nawet [słowo] fioletowy, zakłada się, że wiemy, czym jest fioletowy. Albo motyl [komputer] musi zrozumieć różnicę między motylem a ćmą. Ponadto same zestawy danych mają różne sposoby myślenia o tych różnych terminach. Wszystkie te dane byłyby trudne do wydobycia bez kamienia terminów z Rosetty. I to jest część magii tego, co robi EOL. ”

Jednym z naukowych pytań, które partnerstwo między EOL, IBM i Georgia Tech ma nadzieję rozwiązać, jest paradoks planktonu.

Według Hammocka naukowcy pracujący z symulacjami komputerowymi „próbują modelować to, co dzieje się w oceanie, mówiąc, że świeci słońce i rosną glony. . . jest to przybliżone przybliżenie, ale nie mogą one ustabilizować [komputerowego modelu ekosystemu]. Chodzą przez chwilę, a potem się rozbijają. Ponieważ są zbyt proste. Mają nadzieję, że jeśli będą w stanie wykazać się nieco większą różnorodnością w modelowanej biosferze, staną się bardziej stabilni. . . paradoks: jak istnieje biosfera oceaniczna? Dlaczego nie ulega awarii?

„Ludzie siedzą na danych” - mówi Corrigan. „Na całej planecie istnieją niesamowite zbiorniki pomiarów różnorodności biologicznej. Dostaję wiele połączeń telefonicznych od osób, które siedzą na tych danych i chcą pomóc w umieszczeniu ich w szerszym kontekście. Jest to ważne, ponieważ jesteśmy w wyścigu, aby studiować tę planetę i dowiedzieć się, w jaki sposób nasz rozwój podkreśla nasze bardzo ograniczone zasoby. . . Smithsonian może przyczynić się do wzrostu wiedzy ze wszystkich tych źródeł i być prawdziwą siłą, która ją rozpowszechni. ”

Jedna czwarta z 1 miliona dolarów dotacji zostanie przyznana Smithsonianowi za udział w pracy, ale EOL obejmuje wielu innych graczy. Niektórzy programiści są w Egipcie; zespół edukacyjny opiera się na Harvardzie; a jednostka języka hiszpańskiego znajduje się w Mexico City.

Wszystkie dane EOL będą nadal znajdować się w domenie publicznej lub na licencji Creative Commons. Badania i dane mają być publicznie dostępne i nie powinny być ukryte za zaporą.

„To bardzo stary sen”, mówi Hammock. „Jeden człowiek prawdopodobnie nie może się wszystkiego nauczyć. Trudno jest umieścić wszystko w jednym miejscu, aby można było je świadomie porównać z samym sobą. Ale teraz mamy komputery. ”

Pliniusz byłby albo bardzo zadowolony, albo bardzo zazdrosny.