Ajustement affine par moindres carrés
Position du problème
On se donne deux séries de données: et entre lesquelles on cherche un lien éventuel.
On peut représenter ces données graphiquement: c'est le nuage de points de coordonnées .
Peut-on trouver, graphiquement dans ce nuage, et numériquement/algébriquement avec les données numériques des deux séries et , un lien entre ces séries.
L'ajustement affine consiste à cherhcer un tel lien sous une forme affine, c'est-à-dire sous la forme , ou encore plus pécisément, pour tout , .
Les questions principales sont:
- comment déterminer les "meilleurs" coefficients et
- cet ajustement est-il pertinent ?
permet-il de décrire "convenablement" les données ?
- un ajustement par un autre type de fonction (exponentielle, logarithmique, parabolique, … ) est-il envisageable, et surtout est-il meilleur ?
On parle aussi de régression linéaire: un lien existe très certainement entre les données des séries et , mais ce lien peut être très complexe, au point de le rendre inaccessible.
L'ajustement affine permet de faire régresser cette complexité à celle d'un modèle ne contenant que deux paramètres. On fait régresser la complexité de notre situation de paramètres, les données, à 2 paramètres, les coefficients et .
Pour préciser les choses et construire cette "meilleure" régression affine, on considère un nombre plus faible de points, par exemple avec points (volontairement "très" espacés pour visualiser et comprendre plus aisément):
On cherche alors à ajuster ce nuage de points par une droite. Il est clair que cet ajustement peut se faire de bien des manières, si on ne donne aucun critère particulier.
Quelle droite choisir ? Voir aussi cette animation interactive pour essayer d'en juger.
Moindres carrés
La méthode des moindres carrés permet de déterminer la meilleure droite parmi toutes les droites, "meilleure": le critère reste à définir.
Pour une droite candidate, à chaque point du nuage de points, on note sa projection sur la droite parallèlement à l'axe des ordonnées.
L'erreur commise en considérant le point au lieu du point est la distance . On définit alors la distance entre la droite et le nuage de points par
Maintenant, en écrivant l'équation de la droite sous la forme on a alors, et avec, comme appartient à la droite, , et la distance qui nous intéresse s'écrit:
Le problème se formue maintenant plus précisément: déterminer les coefficients et de l'équation de la droite qui minimisent la distance précédente.
La droite ainsi trouvée (car il y en a une et une seule comme nous allons le voir et le démontrer par la suite) s'appelle alors droite d'ajustement par la méthode des moindres carrés ou encore droite de régression affine par la méthode des moindres carrés, ou plus familièrement droite des moindres carrés.
On entend parfois aussi "régression linéaire" (comme sur les calculatrices), qui est un abus de langage, la droite recherchée ne passe pas a priori par l'origine,et sont expression n'a donc pas de raison particulière d'être linéaire, mais du moins affine…
Calcul des coeffficients
On peut proposer diverses approches pour montrer l'existence et l'unicité de ces coefficients et en donner des formules de calcul.
Le problème est, pour préciser les choses: déterminer et tels que
où , soit minimal.
Démonstration rapide
Une démonstration un peu rapide, et qui peut se faire dès le lycée car ne nécessitant de connaissances que sur le second degré, consiste à admettre tout d'abord que, comme au mieux on aimerait avoir , en moyenne on a : la droite passe par le point moyen .
Ceci étant admis, on a alors et la distance à minimiser ne dépend plus que d'un paramètre
et donc, en développant l'identité remarquable:
Cette expression est celle d'un trinôme du second degré en la variable qu'on cherche. Comme on sait que le trinôme du second degré admet son extremum en , on trouve ici que le minimum recherché est atteint lorsque
Démonstration complète analytique: minimum d'une fonction de deux variables
Plus rigoureusement, sans admettre l'expression de (qu'on va retrouver), on est face à une fonction de deux variables
dont on cherche le minimum.
Ce minimum est à chercher parmi les points critiques, c'est-à-dire où les dérivées partielles s'annulent:
La deuxième équation se réécrit, en séparant les sommes,
soit, en divisant par ,
et on retrouve la propriété admise dans la section précédente.
Maintenant, l'annulation de la première dérivée partielle donne
soit, avec ,
donc
Il reste alors à vérifier si ce point critique est bien un minimum. Cette information nous est donnée par la matrice Hessienne:
On a alors
ce qui montre qu'on est bien face à un extremum local, et, comme
il s'agit bien d'un minimum.
Interprétation matricielle: système d'équations surdéterminé et système normal
Admettons qu'on cherche l'équation d'une droite qui passe exatement par tous les points , c'est-à-dire que, pour tout entier , ou encore, on cherche et solutions du système linéaire
ou encore, matriciellement, on cherche tel que avec
et le second membre
Ce système est clairement surdimensionné, ou surdéterminé: il y a beaucoup plus d'équations que d'inconnues et on s'attend donc tout aussi clairement à ce qu'il n'y ait pas de solution (tout autant à ce que, géométrique, tous les points du nuages ne soient pas alignés).
Par contre, on peut néanmoins chercher le vecteur qui est "le plus proche de résoudre ce système", c'est-à-dire le nouveau problème:
Chercher tel que soit minimal.
On prend ici la norme euclidienne: si , alors .
Les équations donnant le point critique trouvé précédemment s'écrivent
car
Ce dernier système est un système linéaire 2x2, appelé le système d'équations normales.
On peut retenir, d'une manière plus générale que, si est un système linéaire surdimensionné, alors en multipliant par la transposée de la matrice du système:
est un système dont la solution est la meilleure, c'est-à-dire ici qui minimise
parmi tous les possible, et avec désignant la norme euclidienne.
Remarque: on appelle matrice normale toute matrice qui vérifie .
Ici, la matrice du système d'équations normales et , qui vérifie bien cette propriété, d'où le nom donné à ce système d'équations.
On peut démontrer ce résultat exclusivement algébriquement dans un espace euclidien réel.
Propriété: Soit et donnés et tel que alors
est de plus unique.
Démonstration: Soit quelconque, alors en notant le produit scalaire euclidient,
Ainsi, pour tout vecteur ,
ce qui montre que est bien le minimum.
Enfin, est unique car solution de et que