https://frosthead.com

Dlaczego Google Flu Trends nie może śledzić grypy (jeszcze)

W 2008 roku Google ogłosił intrygującą nową usługę o nazwie Google Flu Trends. Inżynierowie z firmy zauważyli, że niektóre zapytania (takie jak słowa „gorączka” lub kaszel ”) zdawały się zwiększać w każdym sezonie grypowym. Ich pomysłem było wykorzystanie częstotliwości tych wyszukiwań do obliczenia ogólnokrajowych wskaźników grypy szybciej niż mogłoby to być wykonane przy użyciu konwencjonalnych danych (których zebranie i analiza zajmuje zwykle kilka tygodni), co pozwala ludziom wiedzieć, kiedy podjąć dodatkowe środki ostrożności, aby uniknąć zarażenia wirusem.

powiązana zawartość

  • W jaki sposób modele pogodowe i Google mogą pomóc w prognozowaniu sezonu grypowego
  • Big Data czy zbyt wiele informacji?

Media (w tym reporter) pospieszyły z gratulacjami dla Google za tak wnikliwe, innowacyjne i zakłócające użytkowanie dużych zbiorów danych. Jedyny problem? Google Flu Trends nie działa zbyt dobrze.

Serwis konsekwentnie przeceniał wskaźniki grypy w porównaniu do konwencjonalnych danych zebranych później przez CDC, szacując, że częstość występowania grypy jest wyższa niż w rzeczywistości na 100 ze 108 tygodni między sierpniem 2011 r. A wrześniem 2013 r. W styczniu 2013 r. wskaźniki grypy osiągnęły najwyższy poziom, ale szacunki Google Flu Trends były dwa razy wyższe niż rzeczywiste dane, jego niedokładność w końcu zaczęła zdobywać relacje prasowe.

Najczęstszym wyjaśnieniem tej rozbieżności było to, że Google nie wziął pod uwagę zwiększenia liczby zapytań związanych z grypą, które pojawiają się w wyniku medialnej histerii grypy, która pojawia się każdej zimy. Ale w tym tygodniu w nauce grupa naukowców pod kierunkiem Davida Lazera zaproponowała alternatywne wyjaśnienie: winą są własne poprawki Google'a dotyczące algorytmu wyszukiwania.

Zasadniczo osobom z zewnątrz trudno jest analizować Google Flu Trends, ponieważ firma nie podaje do publicznej wiadomości konkretnych wyszukiwanych haseł, które wykorzystuje jako surowe dane, ani konkretnego algorytmu używanego do przeliczania częstotliwości tych terminów na oceny grypy. Ale naukowcy starali się wywnioskować warunki, korzystając z Google Correlate, usługi, która pozwala spojrzeć na stawki poszczególnych wyszukiwanych terminów w czasie.

Kiedy w ciągu ostatnich kilku lat naukowcy zrobili to w odniesieniu do różnych zapytań związanych z grypą, odkryli, że kilka kluczowych wyszukiwań (dotyczących leczenia grypy i tych, którzy pytają, jak odróżnić grypę od zimna) śledzi ściślej za pomocą Google Flu Szacunki trendów niż z faktycznymi wskaźnikami grypy, zwłaszcza gdy Google przeceniło występowanie choroby. Wydaje się, że te konkretne wyszukiwania mogą stanowić ogromną część problemu niedokładności.

Jest jeszcze jeden dobry powód, by podejrzewać, że tak może być. W 2011 r., W ramach jednej z regularnych poprawek algorytmu wyszukiwania, Google zaczął polecać powiązane wyszukiwane hasła dla wielu zapytań (w tym umieszczając wyszukiwanie leczenia grypy po tym, jak ktoś przejrzał wiele terminów związanych z grypą), aw 2012 r. Firma zaczęła przedstawiać potencjalne diagnozy w odpowiedzi na objawy w wyszukiwaniu (w tym na liście zarówno „grypa”, jak i „przeziębienie” po wyszukiwaniu, które zawierało na przykład frazę „ból gardła”, być może zachęcając użytkownika do wyszukania sposobu rozróżnienia między nimi). Te poprawki, twierdzą naukowcy, prawdopodobnie sztucznie podniosły liczbę wyszukiwań, które zidentyfikowali jako odpowiedzialne za przeszacowania Google.

Oczywiście, gdyby ta hipoteza była prawdziwa, nie oznaczałoby to, że Google Flu Trends jest nieuchronnie skazane na niedokładność, wystarczy, że należy ją zaktualizować, aby uwzględnić ciągłe zmiany wyszukiwarki. Ale Lazer i inni reserachers twierdzą, że śledzenie grypy z dużych zbiorów danych jest szczególnie trudnym problemem.

Okazuje się, że ogromna część wyszukiwanych słów, które korelują z danymi CDC dotyczącymi częstości grypy, nie jest spowodowana przez ludzi, ale przez trzeci czynnik, który wpływa zarówno na wzorce wyszukiwania, jak i na przenoszenie grypy: zimę. W rzeczywistości twórcy Google Flu Trends zgłosili, że natrafili na określone warunki - na przykład te związane z koszykówką w szkole średniej - które były skorelowane z częstością grypy w czasie, ale najwyraźniej nie miały nic wspólnego z wirusem.

Z biegiem czasu inżynierowie Google ręcznie usunęli wiele terminów, które korelują z wyszukiwaniem grypy, ale nie mają nic wspólnego z grypą, ale ich model był nadal zbyt zależny od sezonowych trendów wyszukiwania innych niż grypa - to jeden z powodów, dla których Google Flu Trends nie odzwierciedlało Epidemia H1N1 w 2009 r., Która miała miejsce latem. Szczególnie we wcześniejszych wersjach Google Flu Trends był „częściowo wykrywaczem grypy, częściowo wykrywaczem zimy”, piszą autorzy artykułu naukowego .

Ale wszystko to może stanowić lekcję wykorzystania dużych zbiorów danych w projektach takich jak Google Flu Trends, a nie ogólne oskarżenie, jak twierdzą naukowcy. Jeśli zostanie odpowiednio zaktualizowany, aby uwzględnić poprawki do własnego algorytmu Google, i poddany rygorystycznej analizie w celu usunięcia czynników wyłącznie sezonowych, może być przydatny w dokumentowaniu ogólnokrajowych wskaźników grypy - zwłaszcza w połączeniu z konwencjonalnymi danymi.

W ramach testu naukowcy stworzyli model, który połączył dane Google Flu Trends (które są zasadniczo w czasie rzeczywistym, ale potencjalnie niedokładne) z dwutygodniowymi danymi CDC (które są datowane, ponieważ ich gromadzenie wymaga czasu, ale nadal może być nieco wskazuje na obecne wskaźniki grypy). Ich hybryda dopasowała rzeczywiste i aktualne dane o grypie znacznie bardziej niż same Google Flu Trends i przedstawiła sposób na uzyskanie tych informacji znacznie szybciej niż oczekiwanie dwóch tygodni na konwencjonalne dane.

„Nasza analiza Google Flu pokazuje, że najlepsze wyniki pochodzą z połączenia informacji i technik z obu źródeł” - powiedział Ryan Kennedy, profesor nauk politycznych i współautor Uniwersytetu w Houston w komunikacie prasowym. „Zamiast mówić o„ rewolucji w zakresie dużych zbiorów danych ”, powinniśmy omówić„ rewolucję obejmującą wszystkie dane ””.

Dlaczego Google Flu Trends nie może śledzić grypy (jeszcze)