Wzrost badań DNA za pośrednictwem usług takich jak 23andme pokazuje, że istnieje duży rynek zbytu na historię rodziny.
Teraz naukowcy wykorzystali te dane, publikując największą na świecie bazę danych genealogicznych z drzewem genealogicznym, które łączy 13 milionów ludzi i sięga ponad pięciu wieków.
Jak podaje Jocelyn Kaiser dla magazynu Science, Yaniv Erlich, genetyk obliczeniowy z Columbia University, opracował projekt siedem lat temu po otrzymaniu wiadomości e-mail od dalekiego krewnego kuzyna za pośrednictwem Geni.com, jednej z wielu witryn, w których szuka się więzi rodzinnych.
Dzięki wsparciu dyrektora ds. Technologii Gemi.com Erlich pobrał publiczne profile witryny - dziesiątki milionów. Chociaż nie oferował danych DNA, informacje obejmowały imię i nazwisko, płeć, datę i miejsce urodzenia, datę śmierci i najbliższych krewnych.
Nature pisała o projekcie Erlicha we wczesnych stadiach w 2013 roku, aw zeszłym roku Sarah Zhang z Atlantyku poinformowała, że naukowcy wydali preprint ogromnego drzewa. Kaiser pisze, że zespół Erlicha opublikował opracowanie na temat swojej pracy w czasopiśmie Science. Na podstawie danych uzyskano 5, 3 miliona drzew, z których największe łączy około 13 milionów krewnych, głównie pochodzenia europejskiego.
Od początku projektu Erlich został dyrektorem naukowym MyHeritage, firmy zajmującej się genealogią i testowaniem DNA, która jest właścicielem Geni.com. Zrobił w zeszły piątek Reddit Ask Me Anything na temat swoich wyników, korygując nieporozumienia i wyjaśniając metodologię projektu. Zauważył również, że najbardziej interesującą częścią tego doświadczenia było zastanowienie się, jak przełożyć wszystkie dostępne dane na coś osobistego.
W wywiadzie dla Nicole Wetsman z National Geographic Erlich mówi, że wymyślenie sposobu pracy z tymi danymi było również najtrudniejszą częścią projektu. „Genomowe zestawy danych mają określone narzędzia, struktury danych, metody, ale nie mieliśmy tego do tego. Wynaleźliśmy koło na bieżąco ”- mówi.
Ostatecznie naukowcy wykorzystali matematyczną teorię graficzną do uporządkowania i weryfikacji informacji, informuje Laura Geggel z Live Science . Porównali również profile z około 80 000 publicznie dostępnymi aktami zgonu z Vermont w ciągu 25 lat, aby upewnić się, że nie tylko bogate profile zostały przesłane na Geni.com.
Zespół następnie zdecydował, jakich informacji chcą szukać w celu przetestowania bazy danych, pisze Wetsman.
Zaczęli patrzeć na wzorce i odkryli wahania długości życia, czego się spodziewali. Na przykład zobaczyli spadek liczby młodych mężczyzn podczas wojny secesyjnej i wojen światowych I i II oraz wzrost przeżycia dzieciństwa w latach 1900. Byli również w stanie śledzić migrację, jak przybycie Mayflower w 1620 roku w dzisiejszym Massachusetts, a następnie wzrost liczby urodzeń w tym obszarze.
Naukowcy odkryli również, że długowieczność ma więcej wspólnego ze środowiskiem i zachowaniem niż genetyką; w rzeczywistości dane ujawniły, że geny odpowiadają tylko za 16% długości życia. Paola Sebastiani, profesor biostatystyki w Boston University School of Public Health, ostrzega jednak przed wyciąganiem wniosków na podstawie tych danych w wywiadzie dla Wetsman. „Definicje długowieczności budzą wiele zamieszania” - mówi.
Genetyk Peter Visscher z University of Queensland w Brisbane, Australia, mówi Kaiserowi, że dane, które spełnił zespół Erlicha, mogą zapewnić wgląd w rolę genetyki w chorobach, jeśli dane są powiązane z informacjami zdrowotnymi.
Zespół badawczy zaczął już łączyć drzewo z informacjami z DNA. Ziemia, która gromadzi dane DNA, co może oznaczać, że wkrótce może pojawić się jeszcze większe drzewo. Badacze przewidują, że jeśli baza danych mogłaby cofnąć się o 65 pokoleń, będą w stanie ukończyć drzewo.