Overfitting

L’overfitting (parfois appelé surapprentissage ou sur-ajustement en français) désigne un biais statistique récurrent en machine learning. Il y a surapprentissage lorsqu’un modèle, trop proche de données particulières, ne peut plus être généralisé. On pourrait faire le parallèle avec un humain qui apprend par cœur sans comprendre. Il lui est alors impossible de répondre à une question qu’il n’a encore jamais vue, bien que similaire à ce qu’il a appris.

Le principe des statistiques est relativement simple : il s’agit de déduire d’un échantillon de données réelles un modèle généralisable qui pourra expliquer divers scénario. Le problème de l’overfitting se présente lorsque le modèle choisi a énormément de degré de liberté, et peut donc garder en mémoire l’unicité de chaque observation, sans comprendre le phénomène sous-jacent que l’on cherche à comprendre. Ainsi le modèle retourne des règles qui n’ont pas de sens réel et devient extrêmement sensible à la moindre variation.

Par exemple, un modèle overfitté prenant en paramètre l’âge, pourrait donner deux résultats très différent pour deux individus ayant seulement quelques jours d’écarts dans leur date de naissance.

/
Vous reprendrez bien une tasse de thé ?