Le principe des statistiques est relativement simple : il s’agit de déduire d’un échantillon de données réelles un modèle généralisable qui pourra expliquer divers scénario. Le problème de l’overfitting se présente lorsque le modèle choisi a énormément de degré de liberté, et peut donc garder en mémoire l’unicité de chaque observation, sans comprendre le phénomène sous-jacent que l’on cherche à comprendre. Ainsi le modèle retourne des règles qui n’ont pas de sens réel et devient extrêmement sensible à la moindre variation.
Par exemple, un modèle overfitté prenant en paramètre l’âge, pourrait donner deux résultats très différent pour deux individus ayant seulement quelques jours d’écarts dans leur date de naissance.