Pronostics sportifs et machine learning

par echodesparis - samedi 10 décembre 2022 (18h43) , mis a jour le lundi 12 décembre 2022

L’apprentissage automatique et ses nombreuses variantes sont entre-temps devenus des outils établis dans de nombreux domaines de la société. Plusieurs tentatives ont été faites pour appliquer l’apprentissage automatique à la prédiction des résultats d’événements sportifs professionnels et pour exploiter les "inefficacités" des marchés de paris correspondants. Sur l’exemple du tennis, cet article élargit les recherches précédentes en menant l’une des études les plus approfondies du genre et en appliquant un large éventail de techniques d’apprentissage automatique à des matchs professionnels masculins et féminins en simple. L’article montre que la précision moyenne des prédictions ne peut être portée à plus de 70 % environ. Quel que soit le modèle utilisé, la plupart des informations pertinentes sont intégrées dans les marchés de paris, et l’ajout d’autres données spécifiques aux matchs et aux joueurs n’entraîne pas d’amélioration significative. Les rendements de l’application des prédictions au marché des paris sportifs sont sujets à une forte volatilité et sont principalement négatifs à long terme. Cette conclusion s’applique à la plupart des modèles testés, aux diverses stratégies de gestion de l’argent et au soutien des favoris ou des outsiders du match. L’utilisation d’ensembles de modèles qui combinent les prédictions de plusieurs approches s’avère être le choix le plus prometteur.

Introduction

Avec la renaissance de techniques connues de longue date dans le contexte de capacités de calcul et de disponibilité de données exponentiellement plus étendues, l’"apprentissage automatique" fait désormais partie de nombreux domaines de la science et de la vie quotidienne.

Les applications vont des services financiers à la médecine et aux véhicules à conduite autonome. Les applications vont des services financiers à la médecine en passant par les véhicules à conduite autonome. L’utilisation des prédictions sportives et des marchés de paris associés n’a pas reçu la même attention jusqu’à présent. Les approches statistiques plus traditionnelles dominent toujours ce domaine. En outre, l’un des principaux domaines d’intérêt a été jusqu’à présent le marché du football, le tennis - l’un des autres grands sports et marchés de paris - recevant moins d’attention.

En utilisant une variété de modèles tels que les réseaux neuronaux et les forêts aléatoires en conjonction avec l’un des plus vastes ensembles de données, cet article réalise une étude complète dans le domaine du tennis professionnel masculin et féminin et, en tant que tel, comble une lacune critique de la recherche. Il se concentre sur deux questions fondamentales. Premièrement, l’apprentissage automatique est-il plus performant que les prévisions simples sans modèle qui reposent uniquement sur les classements officiels des joueurs ou sur les informations implicites des cotes de paris ? Dans ce contexte, le contenu informationnel de diverses caractéristiques de données utilisées dans les modèles est également examiné. Deuxièmement, l’une ou l’autre des techniques est-elle capable de fournir des rendements positifs constants aux parieurs ?

Il s’avère que tous les modèles améliorent le classement des deux joueurs de tennis en tant qu’indicateur unique pour la prédiction du match, mais qu’ils ne sont pas capables de surpasser les prévisions simples basées sur les cotes des paris. Les différences de performance entre les techniques d’apprentissage automatique sont faibles. Les cotes des bookmakers sont les caractéristiques de données les plus pertinentes pour les modèles de prédiction de l’issue des matchs. Les données historiques sur les matchs et les joueurs, telles que la série et le tour du tournoi, la différence d’âge entre les adversaires ou l’avantage du terrain, n’ajoutent guère de pouvoir explicatif supplémentaire. Les rendements des stratégies de paris basées sur des modèles sont principalement négatifs sur le long terme et présentent dans presque tous les cas une forte volatilité. Les ensembles de modèles qui combinent les signaux des approches individuelles sont les candidats les plus prometteurs pour choisir les matchs sur lesquels parier.

Ce document est organisé comme suit. La section 2 offre un aperçu des travaux antérieurs dans le domaine de la prédiction des matchs de tennis professionnel, avec un accent particulier sur les approches d’apprentissage automatique. La section 3 décrit la mise en place de l’étude et développe les objectifs de la recherche, les données et les caractéristiques du modèle ainsi que les modèles réels et leur calibration. La section 4 présente les résultats des prédictions du modèle et met en lumière les facteurs qui déterminent les performances. L’application au marché des paris couvre la description des règles de décision, les stratégies de gestion de l’argent et les retours sur investissement qui en résultent. La section 5 conclut et offre une perspective pour les recherches futures.

Travaux antérieurs

Les événements sportifs et la prédiction des résultats par des analyses scientifiques ont une longue histoire. L’attention s’est principalement portée sur le football, le tennis étant moins mis en avant. En ce qui concerne les matchs de tennis, Kovalchik (2016) regroupe les modèles de prédiction en trois grandes catégories : les modèles basés sur la régression, les modèles basés sur les points et les comparaisons par paires. En outre, dans le cadre de plusieurs études, des prédictions basées sur les cotes des bookmakers sont utilisées à des fins de comparaison (voir, par exemple, Leitner et al. (2009)). Il est à noter que l’hétérogénéité des configurations et des données utilisées dans les différents articles - dans certains cas en conjonction avec des horizons de prévision courts - incite à la prudence lors de la comparaison ou même de la généralisation de leurs résultats.

Les premiers exemples de la première catégorie d’approches, dans laquelle les probabilités du résultat du match sont modélisées directement, sont les travaux de Clarke et Dyte (2000) et de Klaasen et Magnus (2003). Ils calibrent des modèles de régression logistique pour prédire les résultats des matchs sur la base des informations de classement. Dans Scheibehenne et Broeder (2007), les auteurs démontrent que la simple reconnaissance des noms des joueurs par les joueurs amateurs et les profanes surpasse les prédictions basées sur les classements et les têtes de série des experts. Les cotes des paris en ligne, cependant, donnent des résultats encore meilleurs.

Parmi les études les plus complètes, Del Corral et Prieto-Rodriguez (2010) appliquent des modèles probit calibrés à partir des performances passées des joueurs, de leurs caractéristiques physiques et des caractéristiques des matchs. Les informations sur le classement s’avèrent être les plus pertinentes pour la précision des prédictions. Les tournois individuels des hommes montrent des différences significatives, et le fait d’être un ancien joueur du top 10 s’avère pertinent pour les femmes. Les différences d’âge ont un effet significatif pour les hommes et les femmes, bien qu’avec des modèles différents. Ma et al. (2013) utilisent la régression logistique et la calibrent avec des variables reflétant les caractéristiques des joueurs et des matchs. Ils revendiquent un pseudo-R2 d’environ 80 % et une identification correcte du vainqueur dans plus de 90 % des cas. Dans Lisi et Zanella (2017), les auteurs utilisent un modèle de régression logistique avec des caractéristiques telles que le classement, l’âge des joueurs, le facteur de l’avantage du terrain et certaines informations dérivées des cotes des bookmakers. Une stratégie de pari donnerait lieu à un rendement d’environ 16 %. Gu et Saaty (2019) combinent des données et des "jugements d’experts" à l’aide d’un modèle de processus de réseau analytique. Ils font état d’une précision de prédiction d’environ 85 %, bien que pour un très petit échantillon de moins de 100 matchs.

Les modèles basés sur les points visent à estimer la probabilité de gagner des points individuels dans un match, puis à dériver des expressions pour la prédiction du match global. Par exemple, Barnett et Clarke (2005) utilisent les données historiques des matchs pour prédire les points individuels et calculer la probabilité de l’issue du match entier sur la base d’une chaîne de Markov. De même, Knottenbelt et al. (2012) analysent un modèle de Markov qui donne un rendement des paris d’environ 4 %. Ingram (2019) plaide en faveur des modèles à points en utilisant une approche hiérarchique bayésienne pour la prédiction des matchs. En prenant en compte la surface, le tournoi et la date du match, il rapporte des résultats comparables à ceux des autres classes de modèles.

Dans les approches de comparaison par paires, les matchs historiques entre les joueurs sont agrégés pour déduire leur classement de force respectif et prédire les résultats des matchs futurs. McHale et Morton (2011) préconisent un modèle de probabilité pour les comparaisons par paires, qu’ils calibrent en utilisant les performances passées des joueurs de tennis et la surface du match. Lorsqu’ils prédisent les résultats de matchs futurs, ils signalent une supériorité par rapport aux modèles basés sur la régression logistique, également en termes de rendements de paris réalisables. Lyocsa et Vyrost (2018) utilisent un modèle de comparaison par paires et étudient une série de règles de pari basées sur les cotes et les classements. Ils ne peuvent pas confirmer la rentabilité réalisable comme indiqué dans McHale et Morton (2011) et concluent plutôt qu’il n’y a au mieux que des preuves faibles de l’inefficacité du marché. Gorgi et al. (2019) proposent un modèle statistique dynamique qui tient compte des capacités des joueurs variant dans le temps sur différents types de surface de court. Les auteurs affirment que le modèle est nettement plus performant que ceux calibrés sur la base des seules informations de classement.

Kovalchik (2016) compare les trois principaux types de modèles concernant leur performance prédictive pour les matchs de simple masculin. Elle confirme que les informations sur le classement dans les modèles de régression sont les plus performantes, mais qu’elles ne sont finalement pas capables de battre les prévisions des bookmakers.

L’utilisation de techniques d’apprentissage automatique est plutôt un domaine nouveau dans la prédiction sportive. Dans le monde du tennis, seules quelques études ont été réalisées jusqu’à présent. Le tableau 1 résume les principales, les modèles utilisés et leurs principaux résultats. En dépit d’un large éventail d’approches, de données, de calibrations et de mesures d’évaluation, dans l’ensemble, une précision de prédiction autour de 70-75% est rapportée (avec des chiffres allant jusqu’à 99%). La plupart des études s’accordent à dire que les modèles ne sont généralement pas en mesure de battre les prédictions impliquées par les cotes des bookmakers. Des stratégies de pari avec un retour sur investissement de 3-4% sont présentées (avec des affirmations atteignant des valeurs de 80%). Pour certaines des prédictions, mais surtout pour les analyses de paris, des périodes ne dépassant généralement pas un an sont utilisées.

Sport

Introduction

Travaux antérieurs

Lire aussi dans la rubrique football