W 1854 roku w odpowiedzi na niszczącą epidemię cholery, która ogarnęła Londyn, brytyjski lekarz John Snow przedstawił pomysł, który zrewolucjonizuje dziedzinę zdrowia publicznego: mapę epidemiologiczną. Rejestrując przypadki cholery w różnych dzielnicach miasta i wykreślając je na mapie opartej na rezydencjach pacjentów, odkrył, że pojedyncza zanieczyszczona pompa wodna była odpowiedzialna za wiele infekcji.
Mapa przekonała go - i ostatecznie władze publiczne - że teoria choroby miazmatycznej (która twierdziła, że choroby rozprzestrzeniają się przez szkodliwe gazy) jest fałszywa i że teoria zarazków (która słusznie twierdziła, że winne są mikroorganizmy) jest prawdziwa. Blokują uchwyt pompy odpowiedzialnej za wybuch, sygnalizując zmianę paradygmatu, która na stałe zmieniła sposób radzenia sobie z chorobami zakaźnymi, a tym samym warunkami sanitarnymi.
Technologia mapowania jest całkiem inna, podobnie jak choroba, ale istnieje pewne podobieństwo między mapą Snow a nowym projektem prowadzonym przez grupę naukowców kierowanych przez Henry'ego Kautza z University of Rochester. Tworząc algorytmy wykrywające trendy grypy i przewidujące na podstawie słów kluczowych w publicznie dostępnych tweetach z geotagami, stosują nowe podejście do badania przenoszenia chorób - takie, które może zmienić sposób, w jaki badamy i śledzimy przemieszczanie się chorób w społeczeństwie .
„Możemy myśleć o ludziach jak o czujnikach, które patrzą na otaczający ich świat, a następnie zgłaszają to, co widzą i czego doświadczają w mediach społecznościowych”, wyjaśnia Kautz. „Pozwala nam to przeprowadzać szczegółowe pomiary w skali populacji i nie wymaga aktywnego udziału użytkowników”.
Innymi słowy, kiedy tweetujemy, że właśnie ogarnął nas bolesny kaszel i gorączka, nieświadomie dostarczamy bogatych danych do ogromnego eksperymentu zdrowia publicznego, informacji, które naukowcy mogą wykorzystać do śledzenia przepływu chorób, takich jak grypa w wysokiej rozdzielczości i w czasie rzeczywistym.
Projekt Kautz, o nazwie SocialHealth, wykorzystał tweety i inne rodzaje mediów społecznościowych do śledzenia szeregu problemów związanych ze zdrowiem publicznym - ostatnio zaczął używać tweetów do monitorowania przypadków zatrucia pokarmowego w restauracjach w Nowym Jorku, rejestrując wszystkich, którzy napisali geotagowane tweety z restauracji, a następnie śledzące tweety przez następne 72 godziny, sprawdzając wzmianki o wymiotach, biegunce, bólu brzucha, gorączce lub dreszczach. W ten sposób wykryli 480 prawdopodobnych przypadków zatrucia pokarmowego.
Ale wraz ze zmianą sezonu ich praca polega na śledzeniu wirusa grypy, który najbardziej otwiera oczy. Google Flu Trends podobnie starało się wykorzystywać wyszukiwarki Google do śledzenia przepływu grypy, ale model ten znacznie przecenił wybuch epidemii w zeszłym roku, być może dlatego, że relacje o grypie w mediach skłoniły ludzi do rozpoczęcia zapytań związanych z grypą. Analiza na Twitterze stanowi nowy zestaw danych o kilku cechach - wyższej rozdzielczości geograficznej i zdolności do przechwytywania ruchu użytkownika w czasie - które mogą dawać lepsze prognozy.
Aby rozpocząć projekt śledzenia grypy, badacze SocialHealth przyjrzeli się w szczególności nowojorskiemu, zbierając około 16 milionów publicznych tweetów z geotagami miesięcznie od 600 000 użytkowników przez trzy miesiące. Poniżej znajduje się upływ czasu jednego dnia na Twitterze w Nowym Jorku, z różnymi kolorami reprezentującymi różne częstotliwości tweetów w tej lokalizacji (niebieski i zielony oznaczają mniej tweetów, pomarańczowy i czerwony oznaczają więcej):
Aby wykorzystać wszystkie te dane, jego zespół opracował algorytm, który określa, czy każdy tweet reprezentuje raport objawów podobnych do grypy. Wcześniej inni badacze po prostu robili to, wyszukując słowa kluczowe w tweetach (na przykład „chorych”), ale jego zespół odkrył, że takie podejście prowadzi do fałszywych trafień: o wiele więcej użytkowników tweetuje, że ma dość pracy domowej niż źle się czuć.
Aby to wyjaśnić, algorytm jego zespołu szuka trzech słów z rzędu (zamiast jednego) i bierze pod uwagę, jak często dana sekwencja wskazuje na chorobę, na podstawie zestawu tweetów, które ręcznie oznaczyli etykietą. Na przykład fraza „chora na grypę” jest silnie skorelowana z chorobą, podczas gdy „chora i zmęczona” jest mniej istotna. Niektóre szczególne słowa - ból głowy, gorączka, kaszel - są silnie powiązane z chorobą, bez względu na to, w jakiej kolejności składają się trzy słowa.
Po zakodowaniu tych milionów tweetów badacze mogli zrobić z nimi kilka intrygujących rzeczy. Na początek przyjrzeli się zmianom tweetów związanych z grypą w czasie i porównali je z poziomami grypy zgłoszonymi przez CDC, potwierdzając, że tweety dokładnie uchwyciły ogólny trend w częstości grypy. Jednak w przeciwieństwie do danych CDC, są one dostępne prawie w czasie rzeczywistym, a nie tydzień lub dwa po fakcie.
Ale poszli też głębiej, przyglądając się interakcjom między różnymi użytkownikami - reprezentowanymi przez dwóch użytkowników tweetujących z tej samej lokalizacji (rozdzielczość GPS wynosi około połowy bloku miasta) w ciągu tej samej godziny - w celu modelowania prawdopodobieństwa, że zdrowa osoba zachorowałby po kontakcie z osobą z grypą. Oczywiście dwie osoby tweetujące z tego samego bloku w odstępie 40 minut niekoniecznie spotykają się osobiście, ale szanse na ich spotkanie są nieco wyższe niż dwóch losowych użytkowników.
W rezultacie, gdy spojrzysz na wystarczająco duży zestaw danych interakcji, pojawia się obraz transmisji. Odkryli, że jeśli zdrowy użytkownik spotka 40 innych użytkowników, którzy zgłaszają się jako chorzy na objawy grypy, jego szanse na wystąpienie objawów grypy następnego dnia wzrosną z mniej niż jednego procenta do 20 procent. Przy 60 interakcjach liczba ta wzrasta do 50 procent.
Zespół przyjrzał się również interakcjom na samym Twitterze, izolując pary użytkowników, którzy śledzą się nawzajem, i nazywając ich „przyjaźniami”. Chociaż wiele relacji na Twitterze istnieje tylko w Internecie, niektóre z nich odpowiadają rzeczywistym interakcjom i odkryli, że użytkownik który ma dziesięciu przyjaciół, którzy zgłaszają się jako chorzy, jest o 28 procent bardziej narażony na zachorowanie następnego dnia. W sumie, stosując oba te rodzaje interakcji, ich algorytm był w stanie przewidzieć, czy zdrowa osoba zachoruje (i tweetuje o tym) z 90-procentową dokładnością.
Wciąż jesteśmy na wczesnych etapach tych badań i istnieje wiele ograniczeń: większość ludzi nadal nie korzysta z Twittera (tak, naprawdę), a nawet jeśli tak, mogą nie napisać tweeta o chorobie.
Ale jeśli ten rodzaj systemu mógłby być dalej rozwijany, łatwo jest wyobrazić sobie wszelkiego rodzaju aplikacje. Twój smartfon może automatycznie cię ostrzec, na przykład, jeśli spędzasz zbyt dużo czasu w miejscach zajętych przez ludzi z grypą, zachęcając cię do powrotu do domu, aby przestać narażać się na infekcję. Mieszkańcy całego miasta mogliby nawet zostać ostrzeżeni, gdyby był na krawędzi wybuchu.
Pomimo 150 lat, które upłynęły od przełomu w dziedzinie mapowania chorób przez Johna Snowa, jasne jest, że wciąż istnieją aspekty informacji o chorobach, których nie w pełni rozumiemy. Teraz, podobnie jak wtedy, mapowanie danych może pomóc w uzyskaniu odpowiedzi.