„Strzeżcie się Idy marcowe”. Tak, wreszcie jest ta pora roku: kiedy cesarze koszykówki uniwersyteckiej muszą pilnować swoich pleców, aby nie uderzyły najniższe zalążki turnieju.
Przed 15 marca miliony na całym świecie wypełnią nawiasy marcowego szaleństwa. W 2017 r. ESPN otrzymał rekordowo 18, 8 mln nawiasów.
Pierwszym krokiem do idealnego wspornika jest prawidłowy wybór pierwszej rundy. Niestety większość z nas nie jest w stanie przewidzieć przyszłości. W ubiegłym roku tylko 164 z przedłożonych nawiasów było idealne w pierwszej rundzie - mniej niż 0, 001 procent.
Przesłano 18, 8 miliona nawiasów.
- ESPN Fantasy Sports (@ESPNFantasy) 18 marca 2017 r
164 są idealne po rundzie 1.
Oto nadmierne osiągnięcie. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW
Wiele nawiasów zostaje wyeliminowanych, gdy drużyna o niższych kwalifikacjach niepokoi preferowane wyższe nasiona. Ponieważ pole rozszerzyło się do 64 zespołów w 1985 r., Co najmniej osiem zdenerwowań występuje średnio każdego roku. Jeśli chcesz wygrać pulę wsporników, lepiej wybierz przynajmniej kilka sytuacji krytycznych.
Jesteśmy dwiema doktoratami z matematyki. kandydaci na Ohio State University, którzy mają pasję do nauki danych i koszykówki. W tym roku zdecydowaliśmy, że fajnie byłoby zbudować program komputerowy, który wykorzystuje matematyczne podejście do przewidywania problemów pierwszej rundy. Jeśli mamy rację, nawias wybrany za pomocą naszego programu powinien być lepszy w pierwszej rundzie niż średni nawias.
Omylni ludzie
Nie jest łatwo ustalić, która z gier pierwszej rundy wywoła zdenerwowanie.
Powiedz, że musisz zdecydować między nasionem nr 10 a nasionem nr 7. Ziarno nr 10 wywołało zdenerwowanie w ciągu ostatnich trzech występów w turnieju, raz nawet tworząc Final Four. Ziarno numer 7 to zespół, który nie otrzymał zasięgu w ogóle lub nie został objęty zasięgiem krajowym; zwykły fan prawdopodobnie nigdy o nich nie słyszał. Które byś wybrał?
Jeśli wybierzesz ziarno nr 10 w 2017 r., Poszedłbyś z Uniwersytetem Virginia Commonwealth w Saint Mary's of California - i pomyliłbyś się. Dzięki błędowi decyzyjnemu zwanemu uprzedzeniem, ludzie mogą zostać oszukani do wykorzystania swoich najnowszych obserwacji do podjęcia decyzji.
Błąd uprzedzeń jest tylko jednym z rodzajów uprzedzeń, które mogą przeniknąć czyjś proces zbierania, ale istnieje wiele innych. Być może jesteś stronniczy w stosunku do drużyny gospodarzy, a może identyfikujesz się z zawodnikiem i desperacko chcesz, aby odniósł sukces. Wszystko to wpływa na potencjalnie negatywny sposób. Nawet doświadczeni profesjonaliści wpadają w te pułapki.
Modelowanie rozstrojów
Uczenie maszynowe może obronić się przed tymi pułapkami.
W uczeniu maszynowym statystycy, matematycy i informatycy trenują maszynę do prognozowania, pozwalając jej „uczyć się” na podstawie danych z przeszłości. Takie podejście zastosowano w wielu różnych dziedzinach, w tym w marketingu, medycynie i sporcie.
Techniki uczenia maszynowego można przyrównać do czarnej skrzynki. Najpierw podajesz algorytm do danych z przeszłości, zasadniczo ustawiając pokrętła na czarnej skrzynce. Po skalibrowaniu ustawień algorytm może odczytywać nowe dane, porównywać je z danymi z przeszłości, a następnie wypluwać swoje prognozy.
Widok czarnej skrzynki algorytmów uczenia maszynowego. (Matthew Osborne, CC BY-SA)W uczeniu maszynowym dostępnych jest wiele czarnych skrzynek. W naszym projekcie March Madness poszukiwaliśmy algorytmów klasyfikacji. Pomagają nam ustalić, czy grę należy zaklasyfikować jako zdenerwowaną, podając prawdopodobieństwo wystąpienia zdenerwowania lub jawnie klasyfikując grę jako jedną.
Nasz program wykorzystuje wiele popularnych algorytmów klasyfikacji, w tym regresję logistyczną, losowe modele lasów i najbliższych sąsiadów. Każda metoda jest jak inna „marka” tej samej maszyny; działają one tak samo pod maską jak Fordy i Toyoty, ale wykonują tę samą pracę klasyfikacyjną. Każdy algorytm lub skrzynka ma własne prognozy dotyczące prawdopodobieństwa wystąpienia zakłócenia.
Wykorzystaliśmy statystyki wszystkich drużyn pierwszej rundy w latach 2001–2017, aby ustawić wskaźniki na naszych czarnych skrzynkach. Kiedy przetestowaliśmy jeden z naszych algorytmów z danymi pierwszej rundy w 2017 r., Miał on około 75-procentowy wskaźnik powodzenia. Daje nam to pewność, że analiza przeszłych danych, a nie tylko zaufanie do jelit, może prowadzić do dokładniejszych prognoz sytuacji krytycznych, a tym samym do lepszych ogólnych przedziałów.
Jakie zalety mają te skrzynki nad ludzką intuicją? Po pierwsze, maszyny mogą zidentyfikować wzorce we wszystkich danych z lat 2001-2017 w ciągu kilku sekund. Co więcej, ponieważ maszyny polegają wyłącznie na danych, prawdopodobieństwo, że popadną w ludzkie uprzedzenia psychiczne, może być mniejsze.
Nie oznacza to, że uczenie maszynowe da nam doskonałe nawiasy. Mimo że pudełko omija uprzedzenia ludzkie, nie jest odporne na błędy. Wyniki zależą od danych z przeszłości. Na przykład, jeśli nasionko nr 1 miałoby stracić w pierwszej rundzie, nasz model prawdopodobnie tego nie przewidziałby, ponieważ nigdy wcześniej tak się nie stało.
Ponadto algorytmy uczenia maszynowego działają najlepiej z tysiącami, a nawet milionami przykładów. Od 2001 roku rozgrywanych jest tylko 544 gry March Madness pierwszej rundy, więc nasze algorytmy nie wywołują poprawnie każdego niepokoju. Nawiązując do eksperta od koszykówki Jalen Rose, nasz dorobek powinien być wykorzystywany jako narzędzie w połączeniu z Twoją wiedzą ekspercką - i powodzenia! - aby wybrać odpowiednie gry.
Szaleństwo uczenia maszynowego?
Nie jesteśmy pierwszymi ludźmi, którzy stosują uczenie maszynowe w March Madness i nie będziemy ostatnimi. W rzeczywistości techniki uczenia maszynowego mogą wkrótce okazać się konieczne, aby Twoja konkurencja była konkurencyjna.
Nie potrzebujesz dyplomu z matematyki, aby korzystać z uczenia maszynowego - chociaż to nam pomaga. Wkrótce uczenie maszynowe może być bardziej dostępne niż kiedykolwiek. Zainteresowani mogą zapoznać się z naszymi modelami online. Zapoznaj się z naszymi algorytmami, a nawet sam wymyśl lepsze podejście.
Ten artykuł został pierwotnie opublikowany w The Conversation.
Matthew Osborne, Ph.D Candidate in Mathematics, The Ohio State University
Kevin Nowland, Ph.D Candidate in Mathematics, The Ohio State University