https://frosthead.com

Ogromna większość nieprzetworzonych danych ze starych badań naukowych może teraz brakować

Jednym z fundamentów metody naukowej jest odtwarzalność wyników. W laboratorium na całym świecie badacz powinien być w stanie studiować ten sam przedmiot co inny naukowiec i odtwarzać te same dane lub analizować te same dane i zauważać te same wzorce.

Właśnie dlatego wyniki badań opublikowanych dzisiaj w Current Biology są tak niepokojące. Kiedy grupa naukowców próbowała wysłać e-mailem do autorów 516 badań biologicznych opublikowanych w latach 1991–2011 i poprosić o surowe dane, z przerażeniem stwierdzili, że ponad 90 procent najstarszych danych (z artykułów napisanych ponad 20 lat temu) niedostępny. W sumie, nawet uwzględniając artykuły opublikowane jeszcze w 2011 r., Udało im się wyśledzić dane tylko o 23 procent.

„Wszyscy wiedzą, że jeśli poprosisz naukowca o dane ze starych badań, będą się obijać, ponieważ nie wiedzą, gdzie to jest” - mówi Timothy Vines, zoolog z University of British Columbia, który kierował wysiłek. „Ale tak naprawdę nigdy nie było systematycznych szacunków dotyczących tego, jak szybko dane przechowywane przez autorów faktycznie znikają”.

Aby dokonać oceny, jego grupa wybrała rodzaj danych, które były względnie spójne w czasie - pomiary anatomiczne roślin i zwierząt - i wykopała od 25 do 40 artykułów dla każdego nieparzystego roku w okresie, w którym wykorzystano tego rodzaju dane, aby zobaczyć gdyby mogli wytropić surowe liczby.

Zaskakująca liczba ich zapytań została zatrzymana na pierwszym etapie: w 25% badań nie udało się znaleźć aktywnych adresów e-mail, z nieistniejącymi adresami wymienionymi na samym papierze, a wyszukiwania w Internecie nie wykazały żadnych obecnych. W przypadku kolejnych 38 procent badań ich zapytania nie przyniosły odpowiedzi. Kolejne 7 procent zestawów danych zostało utraconych lub niedostępnych.

„Czasami na przykład był zapisywany na dyskietkach trzy i pół cala, więc nikt nie miał do niego dostępu, ponieważ nie mieli już odpowiednich napędów” - mówi Vines. Ponieważ podstawową ideą przechowywania danych jest to, że mogą być one wykorzystywane przez innych w przyszłych badaniach, ten rodzaj starzenia się powoduje, że dane stają się bezużyteczne.

Mogą to wydawać się przyziemne przeszkody, ale naukowcy są tacy jak my - zmieniają adresy e-mail, otrzymują nowe komputery z różnymi dyskami, tracą kopie zapasowe plików - więc te trendy odzwierciedlają poważne, systemowe problemy w nauce.

A zachowanie danych jest tak ważne, że warto o tym pamiętać, ponieważ nie można przewidzieć, w którym kierunku będą zmierzać badania w przyszłości. Na przykład Vines prowadzi własne badania nad parą gatunków ropuch rodzimych w Europie Wschodniej, które wydają się być w trakcie hybrydyzacji. Jak mówi, w latach 80. oddzielny zespół badaczy pracował nad tym samym tematem i natrafił na stary artykuł, który dokumentował rozmieszczenie tych ropuch w latach 30. XX wieku. Świadomość, że ich rozkład zmienił się stosunkowo niewiele w ciągu ostatnich dziesięcioleci, pozwoliła naukowcom na wykonanie wszelkiego rodzaju obliczeń, które inaczej nie byłyby możliwe. „Dostępne oryginalne dane z bardzo małego, starego badania napisanego w języku polskim były niezwykle przydatne dla badaczy, którzy przyszli 70 lat później” - mówi.

Istnieje również fakt, że tak duża część tych badań jest finansowana ze środków publicznych, przy czym większość z nich pochodzi z dotacji, które przewidują, że uzyskane dane będą swobodnie udostępniane publicznie. Ponadto na dane w terenie wpływ mają okoliczności środowiska, w którym są gromadzone - w związku z tym niemożliwe jest ich dokładne odtworzenie w przypadku zmiany warunków.

Jakie jest rozwiązanie Niektóre czasopisma - w tym Molecular Ecology, których Vines jest redaktorem zarządzającym - przyjęły zasady, które wymagają od autorów przesyłania surowych danych wraz z ich artykułami, pozwalając samemu czasopismowi archiwizować dane na zawsze. Chociaż czasopisma, podobnie jak ludzie, są podatne na zmianę adresów e-mail i przestarzałość technologiczną, problemami tymi można łatwiej zarządzać w skali instytucjonalnej.

Ogromna większość nieprzetworzonych danych ze starych badań naukowych może teraz brakować