https://frosthead.com

Jak Margaret Dayhoff wprowadziła nowoczesne technologie komputerowe do biologii

W 1984 r. National Biomedical Research Foundation uruchomiła bezpłatną internetową bazę danych zawierającą ponad 283 000 sekwencji białkowych. Obecnie źródło informacji o białkach pozwala naukowcom z całego świata wziąć nieznane białko, porównać je z tysiącami znanych białek w bazie danych i określić, w jaki sposób jest ono podobne i różne. Na podstawie tych danych mogą szybko i dokładnie wydedukować historię ewolucji białka i jego związek z różnymi formami życia.

Skromne początki tej ogromnej internetowej bazy danych zaczynają się na długo przed Internetem. Wszystko zaczęło się od Atlasu sekwencji i struktury białek, drukowanej książki z 1965 r. Zawierającej 65 znanych wówczas sekwencji białkowych, opracowanej przez kobietę o imieniu Margaret Dayhoff. Aby stworzyć swojego Atlasa, Dayhoff zastosował najnowocześniejsze technologie komputerowe w celu znalezienia rozwiązań problemów biologicznych, pomagając zapoczątkować powstanie nowej dziedziny, którą teraz nazywamy bioinformatyką. Pierwotnie chemik, Dayhoff wykorzystał nowe i ewoluujące technologie ery obliczeniowej powojennej do pionierskich narzędzi, z których chemicy, biolodzy i astronomowie mogliby korzystać w interdyscyplinarnych badaniach nad początkami życia na Ziemi.

Dayhoff (wtedy Margaret Oakley) urodziła się w Filadelfii 11 marca 1925 r. U Ruth Clark, nauczycielki matematyki w szkole średniej i Kenneth Oakley, właściciela małej firmy. W wieku dziesięciu lat jej rodzina przeprowadziła się do Nowego Jorku. Tam uczęszczała do szkół publicznych, ostatecznie stając się Valedictorian of Bayside High w 1942 roku. Uczęszczała na stypendium do Washington Square College of New York University, kończąc magna cum laude matematyki zaledwie trzy lata później w 1945 roku.

W tym samym roku Dayhoff wstąpiła na Columbia University, aby uzyskać doktorat z chemii kwantowej pod opieką wybitnego chemika i badacza operacji II wojny światowej George'a Kimball'a. Na razie jej akceptacja była rzadkością. Po II wojnie światowej do nauk ścisłych weszło więcej mężczyzn, a chemia stała się jeszcze bardziej zdominowana przez mężczyzn niż w poprzedniej dekadzie, a tylko pięć procent doktorów chemii trafiło do kobiet, w porównaniu do ośmiu procent.

W czasach Dayhoffa na uniwersytecie Columbia była siedliskiem technologii komputerowych. Szczycił się niektórymi z pierwszych laboratoriów obliczeniowych w USA, aw 1945 r. Stał się siedzibą laboratorium naukowego IBM Watson pod przewodnictwem astronoma WJ Eckerta. Laboratorium Watson po raz pierwszy służyło jako centrum komputerowe dla aliantów w ostatnich miesiącach II wojny światowej. Po wojnie stała się miejscem do opracowania niektórych pierwszych superkomputerów, w tym elektronicznego kalkulatora sekwencji selektywnej (SSEC), którego Eckert później użył do obliczenia orbit księżycowych dla misji Apollo.

Dzięki tej technologii na wyciągnięcie ręki Dayhoff połączyła swoje zainteresowanie chemią z komputerami za pomocą urządzeń z kartami dziurkowanymi - zasadniczo wczesnych komputerów cyfrowych. Maszyny pozwoliły Dayhoff zautomatyzować jej obliczenia, przechowując algorytm na jednym zestawie kart, a dane na innym. Korzystając z maszyny, była w stanie przetwarzać obliczenia znacznie szybciej i dokładniej niż ręcznie.

Szczególnym przedmiotem zainteresowania Dayhoffa były policykliczne związki organiczne, które są cząsteczkami składającymi się z trzech lub więcej atomów połączonych w ścisłym pierścieniu. Użyła maszyn z kartami dziurkowanymi, aby wykonać dużą liczbę obliczeń energii rezonansowej cząsteczek (różnica między energią potencjalną cząsteczki określonego stanu a stanem średnim) w celu ustalenia prawdopodobieństwa wiązania molekularnego i odległości wiązań.

Dayhoff ukończyła doktorat z chemii kwantowej w ciągu zaledwie trzech lat. Badania, które podjęła jako studentka, zostały opublikowane wraz z Kimball jako współautorką w 1949 r. W Journal of Chemical Physics pod prostym tytułem Obliczanie energii rezonansowej za pomocą karty perforowanej.

Również w 1948 r. Dayhoff poślubiła Edwarda Dayhoffa, studenta fizyki eksperymentalnej, którego poznała w Kolumbii. W 1952 roku para przeniosła się do Waszyngtonu, gdzie Edward objął stanowisko w National Bureau of Standards, a Dayhoff urodziła swoją pierwszą z dwóch córek, Ruth. Dayhoff wkrótce zrezygnował z badań, by zostać Ruth i jej młodszą córką Judith, pozostającą w domu mamą, z wyjątkiem dwuletniego stanowiska doktora na University of Maryland.

Kiedy wróciła do badań i zaczęła ubiegać się o granty na finansowanie swojej pracy w 1962 roku, spotkała ją szok. National Institutes of Health odrzuciło wniosek o dotację, w którym Dayhoff został wymieniony jako główny śledczy, z wyjaśnieniem, że „[Dayhoff] od jakiegoś czasu pozostawał poza intymnym kontaktem… z tym skomplikowanym i szybko rozwijającym się obszarem”, jak pisze historyk Bruno Strasser w jego nadchodząca książka Collecting Experiments: Making Big Data Biology . Tego rodzaju wspinaczka pod górę dla kobiet, które wzięły czas wolny na wychowywanie dzieci, to tylko jeden ze sposobów, w jakie instytucje naukowe utrudniały i nadal utrudniają awans kobiet.

Pomimo braku wsparcia NIH, Dayhoff wkroczyła w najbardziej konsekwentną dekadę swojej kariery. W 1960 roku przyjęła fatalne zaproszenie od Roberta Ledleya, pioniera biofizyki, którego poznała za pośrednictwem swojego męża, aby dołączył do niego w National Biomedical Research Foundation w Silver Spring, Maryland. Ledley wiedział, że umiejętności komputerowe Dayhoffa będą miały kluczowe znaczenie dla celu fundacji, jakim jest połączenie dziedzin informatyki, biologii i medycyny. Pełniłaby funkcję jego zastępcy dyrektora przez 21 lat.

Będąc w Maryland, Dayhoff mógł swobodnie korzystać z nowej platformy mainframe IBM 7090 na Uniwersytecie Georgetown. System IBM został zaprojektowany do obsługi złożonych aplikacji, a jego prędkość obliczeniowa jest sześciokrotnie większa niż w poprzednich modelach. Tę prędkość osiągnięto, zastępując wolniejszą, nieporęczną technologię lamp próżniowych szybszymi, bardziej wydajnymi tranzystorami (komponenty, które produkują 1 i 0 komputerów). Korzystając z mainframe, Dayhoff i Ledley zaczęli szukać i porównywać sekwencje peptydów z programami FORTRAN, które sami napisali, próbując złożyć częściowe sekwencje w kompletne białko.

IBM 7090 Konsola operatora IBM 7090 w NASA Ames Research Center w 1961 r. Z dwoma bankami napędów taśm magnetycznych IBM 729. (NASA)

Zaangażowanie Dayhoffa i Ledleya w zastosowanie analizy komputerowej w biologii i chemii było niezwykłe. „Kultura analizy statystycznej, nie mówiąc już o obliczeniach cyfrowych, była całkowicie obca dla większości [biochemików]”, wyjaśnia Strasser w wywiadzie dla Smithsonian.com . „Niektórzy nawet byli dumni z tego, że nie byli„ teoretykami ”, i tak właśnie rozumieli analizę danych za pomocą modeli matematycznych.”

Jedną z dyscyplin naukowych, w której bardziej doceniono komputer Dayhoffa, była astronomia. Zainteresowanie informatyką było częściowo zasługą WJ Eckharta, który w 1940 r. Użył maszyn dziurkujących IBM do przewidywania orbit planet. W latach 60. XX wieku amerykańskie zainteresowanie eksploracją kosmosu rozwijało się w pełni, co oznaczało finansowanie NASA. Na University of Maryland Dayhoff spotkał się ze spektroskopistą Ellis Lippincott, który sprowadził ją na sześcioletnią współpracę z Carlem Saganem na Harvardzie w 1961 roku. We trójkę opracowali termodynamiczne modele chemicznego tworzenia materii, a Dayhoff opracował program komputerowy, który potrafi obliczyć stężenia równowagowe gazów w atmosferach planetarnych.

Dzięki programowi Dayhoff ona, Lippincott i Sagan mogli wybrać element do analizy, co pozwoliło im zbadać wiele różnych kompozycji atmosferycznych. Ostatecznie opracowali modele atmosferyczne dla Wenus, Jowisza, Marsa, a nawet pierwotnej atmosfery Ziemi.

Podczas eksploracji nieba Dayhoff podjął również pytanie, które badacze badali od co najmniej lat 50. XX wieku: jaka jest funkcja białek? Sekwencjonowanie białek było sposobem na uzyskanie odpowiedzi, ale sekwencjonowanie poszczególnych białek było wysoce nieefektywne. Dayhoff i Ledley przyjęli inne podejście. Zamiast analizować białka w izolacji, porównali białka pochodzące z różnych gatunków roślin i zwierząt. „Porównując sekwencje tego samego białka u różnych gatunków, można zaobserwować, które części sekwencji są zawsze identyczne u wszystkich gatunków, co dobrze wskazuje, że ta część sekwencji była kluczowa dla dobra białka”, mówi Strasser.

Dayhoff zbadał głębiej, szukając wspólnej historii białek. Analizowała nie tylko te same części u różnych gatunków, ale także ich odmiany. „Wzięli te różnice jako miarę ewolucyjnych odległości między gatunkami, co pozwoliło im zrekonstruować drzewa filogenetyczne” - wyjaśnia Strasser.

Dayhoff, zawsze gotowy do wykorzystania siły nowej technologii, opracował skomputeryzowane metody określania sekwencji białek. Przeprowadziła komputerową analizę białek różnych gatunków, od grzyba Candida po wieloryba. Następnie wykorzystała ich różnice, aby ustalić ich relacje przodków. W 1966 roku, z pomocą Richarda Ecka, Dayhoff stworzył pierwszą rekonstrukcję drzewa filogenetycznego.

W artykule naukowym z 1969 r. W amerykańskim artykule „Analiza komputerowa ewolucji białek” Dayhoff przedstawiła publicznie jedno z tych drzew wraz ze swoimi badaniami wykorzystującymi komputery do sekwencjonowania białek. „Każda ustalona sekwencja białkowa, każdy oświecony mechanizm ewolucyjny, każda ujawniona ważna innowacja w historii filogenetycznej poprawi nasze zrozumienie historii życia” - napisała. Próbowała pokazać społeczności nauk przyrodniczych potencjał modeli komputerowych.

Jej kolejnym celem było zebranie wszystkich znanych białek w jednym miejscu, w którym badacze mogli znaleźć sekwencje i porównać je z innymi. W przeciwieństwie do dnia dzisiejszego, kiedy łatwo jest przywołać źródła w elektronicznej bazie danych za pomocą tylko słowa kluczowego, Dayhoff musiał przeszukać dzienniki fizyczne, aby znaleźć białka, których szukała. W wielu przypadkach oznaczało to sprawdzenie pracy kolegi badacza pod kątem błędów. Nawet przy pomocy komputera praca nad zbieraniem i katalogowaniem sekwencji wymagała dużej ilości czasu i wymagającego naukowego oka.

Nie wszyscy widzieli wartość w tym, co robiła. Dla innych badaczy praca Dayhoffa przypominała raczej gromadzenie i katalogowanie XIX-wiecznej historii naturalnej niż eksperymentalne dzieło naukowca XX wieku. „Zbieranie, porównywanie i klasyfikowanie rzeczy natury wydawało się staromodnym wielu biologom eksperymentalnym w drugiej połowie XX wieku”, mówi Stasser. Nazywa Dayhoff „outsiderem”. „Przyczyniła się do dziedziny, która nie istniała, a zatem nie cieszyła się uznaniem zawodowym”, mówi.

W 1965 r. Dayhoff po raz pierwszy opublikowała swoją kolekcję 65 znanych białek w Atlasie sekwencji i struktury białek, drukowanej wersji swojej bazy danych. W końcu dane zostały przeniesione na taśmę magnetyczną, a teraz są dostępne w Internecie, gdzie naukowcy nadal wykorzystują jej dane, aby znaleźć tysiące innych białek. Inne biomedyczne bazy danych dołączyły do ​​walki, w tym Protein Data Bank, wspólny zbiór białek i kwasów nukleinowych uruchomiony w 1971 roku oraz GenBank, baza danych sekwencji genetycznych uruchomiona w 1982 roku. Dayhoff rozpoczął rewolucję naukową.

„Dziś każda publikacja w biologii eksperymentalnej zawiera kombinację nowych danych eksperymentalnych i wniosków wyciągniętych z porównań z innymi danymi udostępnionymi w publicznej bazie danych, podejście, które Dayhoff rozpoczął pół wieku temu”, mówi Strasser.

W miarę rozwoju bioinformatyki zadania gromadzenia i obliczeń w dużej mierze spoczywały na kobietach. Współpracownikami Dayhoffa w Atlasie były wszystkie kobiety oprócz Ledley. Podobnie jak kobiety „komputerów” NASA w latach 60. i autorki tekstów z czasów drugiej wojny światowej, kobiety te zostały wkrótce zepchnięte na margines praktyki naukowej. Nawiązując do „dziewcząt ENIAC”, które zaprogramowały pierwszy cyfrowy komputer ogólnego przeznaczenia, historyk informatyki Jennifer Light pisze, że „w ramach tak drobnej klasyfikacji zawodowej kobiety były zaangażowane w niespotykaną dotąd pracę”.

W swoim biograficznym szkicu Dayhoff Lois T. Hunt, która wraz z nią pracowała nad Atlasem, napisała, że ​​Dayhoff wierzyła, że ​​jej badanie pierwotnej atmosfery ziemskiej może dać jej „związki niezbędne do powstania życia”. Być może nawet więcej niż informatyka jest tym, co łączy różne części badań naukowych Dayhoffa. Od maleńkiego białka po rozległą atmosferę, Dayhoff szukał sekretów pojawienia się życia na tej planecie. Chociaż nie odblokowała ich wszystkich, dała współczesnej nauce narzędzia i metody kontynuowania poszukiwań.

Jak Margaret Dayhoff wprowadziła nowoczesne technologie komputerowe do biologii