Data-analyse voorspelt winnende tijd Kjeld Nuis

27 februari 2018
Data-analyse voorspelt winnende tijd Kjeld Nuis

De winnende Olympische tijd van Kjeld Nuis op de 1000 meter was voor de data scientists van SAS geen verrassing. De winnende tijd van Nuis (1:07,95) was te voorspellen op basis van data-analyse. Ook zagen zij aankomen dat Sven Kramer op de 10 kilometer naast het goud zou grijpen. Om te komen tot deze en meer inzichten in de resultaten van de Nederlands Olympische schaatsers, analyseerden zij 2,4 miljoen wedstrijdresultaten van ruim 64 duizend schaatsers over de afgelopen 11 jaar. Uit de analyse kunnen ook lessen voor de toekomst worden getrokken, want nu is ook duidelijk tot welke leeftijd een wedstrijdschaatser zich nog kan verbeteren en wanneer deze beter zijn ijzers in het vet kan laten.

Algoritme

Om de tijd van Nijs te kunnen voorspellen, analyseerden de data scientists data van toernooien waarin Nuis de 1.000 en 1.500 meter heeft geschaatst. Voor de analyse gebruikten zij een algoritme dat aan de hand van een 1.500 meter tijd kan voorspellen wat het resultaat gaat worden op de 1.000 meter. Hieruit kwam een tijd van 1:07,7 met een marge van 0,2 seconden. De gereden tijd door Nuis van 1:07,95 bevestigt deze analyse. Ook voor de 1000 meter race van Kai Verbij deden de data scientists een voorspelling: dit was 1:08,4 met een marge van 0,4 seconden. Hij realiseerde een tijd van 1:08,61 waarmee ook deze voorspelling binnen de marge viel.


Figuur 1: Puntenplot met regressielijn van tijden 1000 meter (Y-as) en 1500 meter (X-as) Kjeld Nuis

Kramer weinig kans op goud

Een andere analyse van SAS laat zien dat Sven Kramer met zijn winst op de 5km statistisch gezien weinig kans had op goud op de 10km. Voor deze conclusie hebben de data scientists van SAS alle data van mannelijke schaatsers die in wedstrijdverband de 5km en de 10km hebben geschaatst in een dataset verzameld. Ook op deze 1.852 records is met behulp van machine learning-technieken een analyse uitgevoerd. Daaruit blijkt dat zelfs het Olympisch record op de 5km niet voldoende was voor Kramer om goud te pakken op de 10km. Zijn tijd op de 5km was namelijk 6.09,76 (369,76 seconden). Op basis van het algoritme is zijn voorspelde tijd voor de 10km dan 12:55 wat geen podiumplaats op zou leveren. Uiteindelijk rijdt Kramer 13:01,02.


Figuur 2: Puntenplot met regressielijn van tijden 5km en 10km Sven Kramer

Kramer geeft op na achtste ronde 

“Tijdens de wedstrijd zag je duidelijk dat Kramer het in de achtste ronde van de race opgeeft”, vertelt Jos van Dongen, senior data analyst bij SAS. “Kramer zei zelf ook in het interview na de 10km race: ‘als je naar mijn 5km kijkt dan zie je het wel. Ik wist die 10km gaat heel moeilijk worden’. Coach Jac Orie geeft in een reactie daarop aan dat hij het niet had zien aankomen op basis van de tijd op de 5km, maar voor ons was het glashelder toen we naar de data keken. Je had het inderdaad kunnen voorspellen.”

De analyses van SAS laten verder zien dat wereldrecordhouder Ted-Jan Bloemen zelfs iets beter presteert op de 10km dan dat je op basis van zijn tijd op de 5km had kunnen verwachten. Het blijft dus een voorspelling op basis van een statistisch model: de werkelijkheid kan altijd een beetje anders zijn.

Wanneer pieken schaatsers?

Niet alleen werd inzicht verkregen in de prestaties van de schaatsers tijdens deze Olympische Winterspelen, maar ook in wanneer schaatsers hun piek hebben bereikt. De analyse geeft aan dat de gemiddelde wedstrijdschaatser piekt op zijn 27ste. Daarna worden de tijden die worden gereden op de 10km alleen maar slechter. Van Dongen: “Dit geldt echter niet voor schaatsers die de Olympische Spelen halen. Daar zagen we dat Olympische sporters al eerder pieken en ook langer blijven presteren op dat niveau. Dit geldt ook voor Kramer. Zijn tijden op de 10km werden na zijn 25ste soms zelfs nog beter. Een veelbelovende wetenschap voor de spelen van 2022 in Beijing."


Figuur 3: Alle geschaatste tijden door mannelijke 10km schaatsers (oranje = uitslagen Sven Kramer)

Analyses

Voor de analyses is gebruikgemaakt van data van de site Speedskatingresults.com. Deze data werd geanalyseerd met behulp van SAS Visual Analytics en Visual Statistics, beide onderdeel van het SAS Viya-platform. Dit platform gebruikt de nieuwste technieken op het gebied van artificial intelligence en machine learning.