Ajustement affine par moindres carrés
Position du problème
On se donne deux séries de données:
data:image/s3,"s3://crabby-images/fe5bc/fe5bc6d7959d621f0cd3f2ce5e7eb0454d12f50b" alt="$X=(x_1,x_2,\dots,x_n)$"
data:image/s3,"s3://crabby-images/9af41/9af41c37e7bbf684454fdab07d4549d42b27734b" alt="$Y=(y_1,y_2,\dots,y_n)$"
On peut représenter ces données graphiquement: c'est le nuage de points de coordonnées
data:image/s3,"s3://crabby-images/14d17/14d17c5880a7c69794b423f301fc9b9960799e60" alt="$M_i\lp x_i;y_i\rp$"
![\[\psset{xunit=3cm,yunit=2cm,arrowsize=8pt}
\begin{pspicture}(-.2,-0.2)(4.2,4.2)
\psline{->}(-0.2,0)(4,0)
\psline{->}(0,-0.2)(0,4)
%\rput(1,2.){$\tm$}
\psdots(.9,.52)(.92,1.2)(.92,.89)(.96,.6)(.97,.89)(.98,.89)
\psdots(1,1)(1.1,1.2)(1.15,1.1)(1.2,1.35)(1.2,1.15)(1.17,1.)
\psdots(1.3,1.3)(1.32,1.4)(1.35,1.41)(1.4,1.3)(1.43,1.37)
\psdots(1.5,1.6)(1.55,1.7)(1.52,1.4)(1.6,1.6)(1.61,1.72)(1.65,1.4)
\psdots(1.68,1.42)(1.7,2)(1.72,1.6)(1.76,1.7)(1.77,1.6)(1.78,1.75)
\psdots(1.8,1.42)(1.82,2)(1.82,1.8)(1.86,1.7)(1.87,1.8)(1.88,1.99)
\psdots(1.9,1.52)(1.92,2.2)(1.92,1.89)(1.96,1.6)(1.97,1.89)(1.98,1.89)
\psdots(2,2)(2.1,2.2)(2.15,2.1)(2.2,2.35)(2.2,2.15)(2.17,2.)(2.18,1.8)
\psdots(2.3,2.3)(2.32,2.4)(2.35,2.41)(2.4,2.3)(2.43,2.17)
\psdots(2.5,2.6)(2.55,2.7)(2.52,2.4)(2.6,2.6)(2.61,2.72)(2.65,2.4)
\psdots(2.68,2.42)(2.7,3)(2.72,2.6)(2.76,2.7)(2.77,2.6)(2.78,2.75)
\psdots(2.8,2.42)(2.82,3)(2.82,2.8)(2.86,2.7)(2.87,2.8)(2.88,2.99)
\psdots(2.9,2.52)(2.92,3.2)(2.92,2.89)(2.96,2.6)(2.97,2.89)(2.98,2.89)
\psdots(1,1.6)(2,2.4)(1.5,1.1)(1.8,1.3)(2.2,1.7)(2.8,2.2)
\end{pspicture}\]](Cours-Ajustement-moindres-carres-IMG/4.png)
Peut-on trouver, graphiquement dans ce nuage, et numériquement/algébriquement avec les données numériques des deux séries
data:image/s3,"s3://crabby-images/37516/3751656d829be6ec4a435e74078cfea1c2b70d45" alt="$X$"
data:image/s3,"s3://crabby-images/1cc29/1cc29cd4ef5baa4311f99d3c4da439dc1a0abeaa" alt="$Y$"
L'ajustement affine consiste à cherhcer un tel lien sous une forme affine, c'est-à-dire sous la forme
data:image/s3,"s3://crabby-images/1a7e0/1a7e077a2d64fc7e317c24c6fb50361a145524d8" alt="$Y=aX+b$"
data:image/s3,"s3://crabby-images/a6291/a629113c7b238f27e80e5ba6a33416bbb7858c85" alt="$i$"
data:image/s3,"s3://crabby-images/244e7/244e77275a6cf2b2a85b30b744bc070b346a4923" alt="$y_i=ax_i+b$"
Les questions principales sont:
- comment déterminer les "meilleurs" coefficients
et
- cet ajustement est-il pertinent ?
permet-il de décrire "convenablement" les données ?
- un ajustement par un autre type de fonction (exponentielle, logarithmique, parabolique, … ) est-il envisageable, et surtout est-il meilleur ?
On parle aussi de régression linéaire: un lien existe très certainement entre les données des séries
data:image/s3,"s3://crabby-images/7a3e6/7a3e6df0eebf8b91c92795648bcf0583505c68fb" alt="$X$"
data:image/s3,"s3://crabby-images/a5cc2/a5cc27ee56a61d9d0a0a19c534cab1d3d50c6e13" alt="$Y$"
L'ajustement affine permet de faire régresser cette complexité à celle d'un modèle ne contenant que deux paramètres. On fait régresser la complexité de notre situation de
data:image/s3,"s3://crabby-images/dc34f/dc34f87c36d567e6c0a9895eb4bf44d5a258d826" alt="$2N$"
data:image/s3,"s3://crabby-images/5abf1/5abf1c4ace99c547a0414cc1b9b3ceeb4d7ff6f8" alt="$a$"
data:image/s3,"s3://crabby-images/2dc5e/2dc5e73de145d19a623cff33a516d0e4c0e6f9d4" alt="$b$"
Pour préciser les choses et construire cette "meilleure" régression affine, on considère un nombre plus faible de points, par exemple avec
data:image/s3,"s3://crabby-images/f1ce9/f1ce9dce40d1c7bb44467e1a5e5432234a062e45" alt="$n=6$"
![\[\psset{xunit=1.1cm,yunit=1.4cm,arrowsize=8pt}
\begin{pspicture}(-.2,-.2)(7.2,5.4)
\psline{->}(-0.1,0)(7,0)
\psline{->}(0,-0.1)(0,5.2)
\rput(1,2.){$\tm$}\rput(1,2.3){$M_1$}
\rput(2,1){$\tm$}\rput(2,0.7){$M_2$}
\rput(3,3.2){$\tm$}\rput(3,3.5){$M_3$}
\rput(4,4){$\tm$}\rput(4,4.3){$M_4$}
\rput(5,2.5){$\tm$}\rput(5,2.2){$M_5$}
\end{pspicture}\]](Cours-Ajustement-moindres-carres-IMG/18.png)
On cherche alors à ajuster ce nuage de points par une droite. Il est clair que cet ajustement peut se faire de bien des manières, si on ne donne aucun critère particulier.
![\[\psset{xunit=1.1cm,yunit=1.4cm,arrowsize=8pt}
\begin{pspicture}(-1,-0.2)(7.6,5.6)
\psline{->}(-0.2,0)(7,0)
\psline{->}(0,-0.1)(0,5.2)
\rput(1,2.){$\tm$}\rput(1,2.3){$M_1$}
\rput(2,1){$\tm$}\rput(2,0.7){$M_2$}
\rput(3,3.2){$\tm$}\rput(3,3.5){$M_3$}
\rput(4,4){$\tm$}\rput(4,4.3){$M_4$}
\rput(5,2.5){$\tm$}\rput(5,2.2){$M_5$}
\psplot[linecolor=blue,linewidth=1.5pt]{-1}{7}{x 0.5 mul 1 add}
\rput(6.9,4.6){\large\blue$D_2$}
\psplot[linecolor=red,linewidth=1.5pt]{-1}{7}{x 0.4 mul 1.2 add}
\rput(6.9,3.6){\large\red$D_3$}
\psplot[linecolor=magenta,linewidth=1.5pt]{-.7}{7}{x 0.7 mul .3 add}
\rput(6.9,5.4){\large\magenta$D_1$}
\end{pspicture}\]](Cours-Ajustement-moindres-carres-IMG/19.png)
Quelle droite choisir ? Voir aussi cette animation interactive pour essayer d'en juger.
Moindres carrés
La méthode des moindres carrés permet de déterminer la meilleure droite parmi toutes les droites, "meilleure": le critère reste à définir.
Pour une droite candidate, à chaque point
data:image/s3,"s3://crabby-images/78100/781009987dc858cdf71aee2022f00cfe81921ef2" alt="$M_i$"
data:image/s3,"s3://crabby-images/450e8/450e85346ad8416ac37825ff787dcd343fade5fd" alt="$P_i$"
data:image/s3,"s3://crabby-images/a4e19/a4e1981f3f0a1bffa183e42c7bd3e1ffca6faf26" alt="\[\psset{xunit=1.1cm,yunit=1.4cm,arrowsize=8pt}
\begin{pspicture}(-1,-0.2)(7.4,5.4)
\psline{->}(-0.2,0)(7,0)
\psline{->}(0,-0.1)(0,5.2)
%
\rput(1,2.){$\tm$}\rput(1,2.3){$M_1$}
\rput(1,1.2){$P_1$}\psline[linestyle=dashed"(1,1.5)
%
\rput(2,1){$\tm$}\rput(2,0.7){$M_2$}
\rput(2,2.3){$P_2$}\psline[linestyle=dashed](2,1)(2,2)
%
\rput(3,3.2){$\tm$}\rput(3,3.5){$M_3$}
\rput(3,2.2){$P_3$}\psline[linestyle=dashed](3,3.2)(3,2.5)
%
\rput(4,4){$\tm$}\rput(4,2.7){$P_4$}
\rput(4,4.3){$M_4$}\psline[linestyle=dashed](4,4)(4,3)
%
\rput(5,2.5){$\tm$}\rput(5,2.2){$M_5$}
\rput(5,3.8){$P_5$}\psline[linestyle=dashed](5,2.5)(5,3.5)
%
\psplot{-1}{7}{x 0.5 mul 1 add}
\end{pspicture}\]](Cours-Ajustement-moindres-carres-IMG/22.png)
L'erreur commise en considérant le point
data:image/s3,"s3://crabby-images/863b4/863b4a904d73681370cbf041b993318be9cd4ba1" alt="$P_i$"
data:image/s3,"s3://crabby-images/b490d/b490d100730fedd1d72ff02f94eb851ff23370bf" alt="$M_i$"
data:image/s3,"s3://crabby-images/e0724/e072493fce2dbb89d14fcef65ae21e52ae08f0f8" alt="$\varepsilon_i=M_iP_i$"
![\[d=\sum_{i=1}^n\varepsilon_i^2\]](Cours-Ajustement-moindres-carres-IMG/26.png)
Maintenant, en écrivant l'équation de la droite sous la forme
data:image/s3,"s3://crabby-images/b6687/b6687641006b69b013ba942a67cb7ca78ed3f636" alt="$y=ax+b$"
data:image/s3,"s3://crabby-images/8734a/8734ae8cb807ebb2ffdb99b3048080dc676eb6a6" alt="$M_i\lp x_i;y_i\rp$"
data:image/s3,"s3://crabby-images/e5823/e5823d50272fb748453018c968b92fb8b2fd5e69" alt="$P_i\lp x_i;\widetilde{y_i}\rp$"
data:image/s3,"s3://crabby-images/797b2/797b25507d26fe978567042438afc3703463ad49" alt="$P_i$"
data:image/s3,"s3://crabby-images/91805/9180526803c760c6bd388ad8d60b75702df73517" alt="$\widetilde{y_i}=ax_i+b$"
![\[\bgar{ll}d&=\dsp\sum_{i=1}^n\varepsilon_i^2
=\sum_{i=1}^n M_iP_i^2 \\[1.2em]
&=\dsp\sum_{i=1}^n \lp y_i-\widetilde{y_i}\rp^2\enar\]](Cours-Ajustement-moindres-carres-IMG/32.png)
Le problème se formue maintenant plus précisément: déterminer les coefficients
data:image/s3,"s3://crabby-images/94225/94225e2014686a6c6e395d77baa829af64a995f3" alt="$a$"
data:image/s3,"s3://crabby-images/143eb/143eb141fc561565cccea71db9b2ab1d03d275ab" alt="$b$"
data:image/s3,"s3://crabby-images/f4e71/f4e713c26139b277692427bcbc8541bc4544b0f0" alt="$y=ax+b$"
data:image/s3,"s3://crabby-images/17ee2/17ee27850577c78395d7478cc7f9d2f9b380df82" alt="$d$"
La droite ainsi trouvée (car il y en a une et une seule comme nous allons le voir et le démontrer par la suite) s'appelle alors droite d'ajustement par la méthode des moindres carrés ou encore droite de régression affine par la méthode des moindres carrés, ou plus familièrement droite des moindres carrés.
On entend parfois aussi "régression linéaire" (comme sur les calculatrices), qui est un abus de langage, la droite recherchée ne passe pas a priori par l'origine,et sont expression n'a donc pas de raison particulière d'être linéaire, mais du moins affine…
Calcul des coeffficients
On peut proposer diverses approches pour montrer l'existence et l'unicité de ces coefficients et en donner des formules de calcul.
Le problème est, pour préciser les choses: déterminer
data:image/s3,"s3://crabby-images/6b443/6b44386a6e2371a11777721008b3fd80cfd0b374" alt="$a$"
data:image/s3,"s3://crabby-images/812a0/812a0c33d403e548e12b140379822222f44013b4" alt="$b$"
![\[d(a,b)=\sum_{i=1}^n\lp y_i-\widetilde{y_i}\rp^2\]](Cours-Ajustement-moindres-carres-IMG/39.png)
où
data:image/s3,"s3://crabby-images/ccdbb/ccdbb3596ae771e39a66b468bde3c8f71b96a4c0" alt="$\widetilde{y_i}=ax_i+b$"
Démonstration rapide
Une démonstration un peu rapide, et qui peut se faire dès le lycée car ne nécessitant de connaissances que sur le second degré, consiste à admettre tout d'abord que, comme au mieux on aimerait avoir
data:image/s3,"s3://crabby-images/3e47b/3e47ba1c57870560694864ca244970344623a9ff" alt="$y_i=ax_i+b$"
data:image/s3,"s3://crabby-images/2879d/2879d37140287ff7ca6815479b725d1da57b014c" alt="$\overline{y}=a\overline{x}+b$"
data:image/s3,"s3://crabby-images/ff0a3/ff0a3db7680512569ff71d19c2d47023e8bcc01f" alt="$G\lp\overline{x};\overline{y}\rp$"
Ceci étant admis, on a alors
data:image/s3,"s3://crabby-images/f30f4/f30f49c426c4c9f38cc23973a24ded8bf4284927" alt="$b=\overline{y}-a\overline{x}$"
![\[\bgar{ll}d(a,b)&=\dsp\sum_{i=1}^n\lp y_i-\widehat{y_i}\rp^2\\[1.2em]
&=\dsp\sum_{i=1}^n\Bigl( y_i-\lp ax_i+b\rp\Bigr)^2\\[1.2em]
&=\dsp\sum_{i=1}^n\Bigl( y_i-\lp ax_i+\overline{y}-a\overline{x}\rp\Bigr)^2\\[1.2em]
&=\dsp\sum_{i=1}^n\Bigl( a\lp\overline{x}-x_i\rp-\lp\overline{y}-y_i\rp\Bigr)^2
\enar\]](Cours-Ajustement-moindres-carres-IMG/45.png)
et donc, en développant l'identité remarquable:
![\[\bgar{ll}d(a,b)&=\dsp\sum_{i=1}^n a^2\lp\overline{x}-x_i\rp
-2a\lp\overline{x}-x_i\rp\lp\overline{y}-y_i\rp
+\lp\overline{y}-y_i\rp^2\\[1.2em]
&=\dsp a^2\sum_{i=1}^n\lp\overline{x}-x_i\rp
-2a\sum_{i=1}^n\lp\overline{x}-x_i\rp\lp\overline{y}-y_i\rp
+\sum_{i=1}^n\lp\overline{y}-y_i\rp^2
\enar\]](Cours-Ajustement-moindres-carres-IMG/46.png)
Cette expression est celle d'un trinôme du second degré en la variable
data:image/s3,"s3://crabby-images/aef14/aef14ccb7bbe3dbf2d9b9acac8d078652bfb90ab" alt="$a$"
data:image/s3,"s3://crabby-images/7e735/7e735f2ee4042b275e6a637e72f51607b956eeb6" alt="$\alpha x^2+\beta x+\gamma$"
data:image/s3,"s3://crabby-images/0702b/0702b2eeeb1013afc553b54d502ff1f695611f2c" alt="$x=-\dfrac{\beta}{2\alpha}$"
![\[\bgar{ll}a&=-\dfrac{\dsp-2\sum_{i=1}^n\lp\overline{x}-x_i\rp\lp\overline{y}-y_i\rp}{\dsp2\sum_{i=1}^n\lp\overline{x}-x_i\rp}\\[2.5em]
&=\dfrac{\dsp\sum_{i=1}^n\lp\overline{x}-x_i\rp\lp\overline{y}-y_i\rp}{\dsp\sum_{i=1}^n\lp\overline{x}-x_i\rp}\enar\]](Cours-Ajustement-moindres-carres-IMG/50.png)
Démonstration complète analytique: minimum d'une fonction de deux variables
Plus rigoureusement, sans admettre l'expression de
data:image/s3,"s3://crabby-images/5b564/5b564e67f71bbea034926e796b07f1e8d1353617" alt="$b$"
![\[d(a,b)=\sum_{i=1}^n\Bigl( y_i-ax_i-b\Bigr)^2\]](Cours-Ajustement-moindres-carres-IMG/52.png)
dont on cherche le minimum.
Ce minimum est à chercher parmi les points critiques, c'est-à-dire où les dérivées partielles s'annulent:
![\[\la\bgar{ll}
\dfrac{\partial d(a,b)}{\partial a}=
-2\dsp\sum_{i=1}^n x_i \Bigl( y_i-ax_i-b\Bigr) =0
\\[1.5em]
\dfrac{\partial d(a,b)}{\partial b}=
-2\dsp\sum_{i=1}^n \Bigl( y_i-ax_i-b\Bigr) =0
\enar\right.\]](Cours-Ajustement-moindres-carres-IMG/53.png)
La deuxième équation se réécrit, en séparant les sommes,
![\[\sum_{i=1}^n y_i-a\sum_{i=1}^nx_i-b\sum_{i=1}^n1=0\]](Cours-Ajustement-moindres-carres-IMG/54.png)
soit, en divisant par
data:image/s3,"s3://crabby-images/96e8c/96e8c1804478ed1384b152e870acf86ccf201fe4" alt="$n$"
![\[\overline{y}-a\overline{x}-b=0
\iff \overline{y}=a\overline{x}+b\]](Cours-Ajustement-moindres-carres-IMG/56.png)
et on retrouve la propriété admise dans la section précédente.
Maintenant, l'annulation de la première dérivée partielle donne
![\[\sum_{i=1}^nx_iy_i-a\sum_{i=1}^nx_i^2-b\sum_{i=1}^nx_i=0\]](Cours-Ajustement-moindres-carres-IMG/57.png)
soit, avec
data:image/s3,"s3://crabby-images/04c01/04c018e01f2c1f4474c168bc20441fd3df65b247" alt="$b=\overline{y}-a\overline{x}$"
![\[\sum_{i=1}^nx_iy_i-a\sum_{i=1}^nx_i^2-\lp\overline{y}-a\overline{x}\rp\sum_{i=1}^nx_i=0\]](Cours-Ajustement-moindres-carres-IMG/59.png)
donc
![\[a=\dfrac{\dsp b\sum_{i=1}^nx_i-\sum_{i=1}^nx_iy_i}{\dsp\sum_{i=1}^nx_i^2}\]](Cours-Ajustement-moindres-carres-IMG/60.png)
Il reste alors à vérifier si ce point critique est bien un minimum. Cette information nous est donnée par la matrice Hessienne:
![\[\bgar{ll}H(a,b)&=\lp\bgar{cc}
\dfrac{\partial^2d(a,b)}{\partial a^2} & \dfrac{\partial^2d(a,b)}{\partial a\partial b}\\[1em]
\dfrac{\partial^2d(a,b)}{\partial a\partial b} & \dfrac{\partial^2d(a,b)}{\partial b^2}
\enar\rp\\[3em]
&=\lp\bgar{cc}
2\dsp\sum_{i=1}^n x_i^2 & 2\dsp\sum_{i=1}^n x_i \\[1em]
2\dsp\sum_{i=1}^n x_i & 2n
\enar\rp
\enar\]](Cours-Ajustement-moindres-carres-IMG/61.png)
On a alors
![\[\bgar{ll}
\det\lp H(a,b)\rp&=\dsp4n\sum_{i=1}^n x_i^2-4\lp\sum_{i=1}^nx_i\rp^2\\[1.6em]
&=4n^2\text{Var}(X)>0\enar
\]](Cours-Ajustement-moindres-carres-IMG/62.png)
ce qui montre qu'on est bien face à un extremum local, et, comme
![\[\text{Tr}\lp H(a,b)\rp=2\sum_{i=1}^n x_i^2+2n>0\]](Cours-Ajustement-moindres-carres-IMG/63.png)
il s'agit bien d'un minimum.
Interprétation matricielle: système d'équations surdéterminé et système normal
Admettons qu'on cherche l'équation d'une droite qui passe exatement par tous les points
data:image/s3,"s3://crabby-images/2af7b/2af7bb208bc691beee3cf27af9e773df9aaedcda" alt="$M_i\lp x_i;y_i\rp$"
data:image/s3,"s3://crabby-images/3bf7f/3bf7fc98540b3865027a2958670b632ffa1b6ef4" alt="$i$"
data:image/s3,"s3://crabby-images/a82a7/a82a76cae4c7df6097f448bc266f66362143e2ab" alt="$y_i=ax_i+b$"
data:image/s3,"s3://crabby-images/d7539/d753986f1065e81fa737b37666a8c839b7b60bbb" alt="$a$"
data:image/s3,"s3://crabby-images/4569f/4569f56d394b0ed6e596decbe8680991c60f2eae" alt="$b$"
![\[\la\bgar{lcl}
a x_1+b=&y_1 \\
a x_2+b=&y_2 \\
\dots \\
a x_n+b=&y_n\enar\right.\]](Cours-Ajustement-moindres-carres-IMG/69.png)
ou encore, matriciellement, on cherche
data:image/s3,"s3://crabby-images/ac28d/ac28d7a898a7785e1a9ec1f4e4db75c69881ef73" alt="$U=\lp\bgar{c}a\\b\enar\rp$"
data:image/s3,"s3://crabby-images/293c9/293c92b7775e8820c2803792d31853cdc56e77d9" alt="$AU=Y$"
![\[A=\lp\bgar{cc}x_1 & 1\\x_2&1\\\dots\\x_n&1\enar\rp\]](Cours-Ajustement-moindres-carres-IMG/72.png)
et le second membre
![\[Y=\lp\bgar{c}y_1\\y_2\\\dots\\y_n\enar\rp\]](Cours-Ajustement-moindres-carres-IMG/73.png)
Ce système est clairement surdimensionné, ou surdéterminé: il y a beaucoup plus d'équations que d'inconnues et on s'attend donc tout aussi clairement à ce qu'il n'y ait pas de solution (tout autant à ce que, géométrique, tous les points du nuages ne soient pas alignés).
Par contre, on peut néanmoins chercher le vecteur
data:image/s3,"s3://crabby-images/8926c/8926c8964c09d57cafc4b34231e109f5fcc25691" alt="$U$"
Chercher
data:image/s3,"s3://crabby-images/153c3/153c3370cb1cf1e201c6c198ebe5435e2a4a836a" alt="$U$"
data:image/s3,"s3://crabby-images/ec121/ec1211604253a9be28b767982bc3d3c1263ca94e" alt="$\left\|Y-AU\right\|$"
On prend ici la norme euclidienne: si
data:image/s3,"s3://crabby-images/66a65/66a658659b60c82765056c950d4fadf89b6780a5" alt="$x=\lp x_1, x_2, \dots, x_n\rp$"
data:image/s3,"s3://crabby-images/0f7f1/0f7f17e03e320056db14646f9f659124c41c9c15" alt="$\dsp\left\| x\right\|=\sqrt{\sum_{i=1}^nx_i^2}$"
Les équations donnant le point critique trouvé précédemment s'écrivent
![\[\bgar{ll}
\la\bgar{ll}
\dfrac{\partial d(a,b)}{\partial a}=0
\\[1.5em]
\dfrac{\partial d(a,b)}{\partial b}=0
\enar\right.
\iff
\la\bgar{ll}\dsp\sum_{i=1}^n x_i \Bigl( y_i-ax_i-b\Bigr) =0\\[1.5em]
\dsp\sum_{i=1}^n \Bigl( y_i-ax_i-b\Bigr) =0
\enar\right.
\\[3.5em]
\iff
\la\bgar{ll}
\dsp a\sum_{i=1}^nx_i^2+b\sum_{i=1}^nx_i=\sum_{i=1}^nx_iy_i \\[1.5em]
\dsp a\sum_{i=1}^nx_i+nb=\sum_{i=1}^ny_i
\enar\right.
\\[3.5em]
\iff ^tAAU=\,^tAY
\enar
\]](Cours-Ajustement-moindres-carres-IMG/79.png)
car
![\[^tAA=
\lp\bgar{cccc}x_1&x_2&\dots&x_n\\1&1&\dots&1\enar\rp\,
\lp\bgar{cc}x_1&1\\x_2&1\\\dots\\x_n&1\enar\rp
=\lp\bgar{cc}\sum x_i^2 & \sum x_i\\[.6em]\sum x_i & n\enar\rp\]](Cours-Ajustement-moindres-carres-IMG/80.png)
Ce dernier système est un système linéaire 2x2, appelé le système d'équations normales.
On peut retenir, d'une manière plus générale que, si
data:image/s3,"s3://crabby-images/2bf9f/2bf9f67d7a96ba573f92d2c06bcd0e063b19f208" alt="$AU=Y$"
![\[^tAAU=\,^tAY\]](Cours-Ajustement-moindres-carres-IMG/82.png)
est un système dont la solution
data:image/s3,"s3://crabby-images/c0d5a/c0d5aceca3e2c8f886cb15783ed930f74a969d25" alt="$\widetilde{U}$"
![\[\left\|Y-AU\right\|^2\]](Cours-Ajustement-moindres-carres-IMG/84.png)
parmi tous les
data:image/s3,"s3://crabby-images/5087f/5087f30dd5240bc3c4fd043ac32077ebcc015105" alt="$U$"
data:image/s3,"s3://crabby-images/5c12a/5c12a5f7c52e1391f00d4702bd4d822087602cef" alt="$\left\|\,.\,\right\|$"
Remarque: on appelle matrice normale toute matrice
data:image/s3,"s3://crabby-images/ccff2/ccff2a21eff946d83c3f01e99fbaf3e1828cc9f1" alt="$M$"
data:image/s3,"s3://crabby-images/de4dd/de4dd33f6c1d7fd4ffe9c61d5bd92a695588732d" alt="$^tM=M$"
Ici, la matrice du système d'équations normales et
data:image/s3,"s3://crabby-images/386eb/386ebb76c53190ad566f361610b589261f4cdbc1" alt="$M=\,^tAA$"
On peut démontrer ce résultat exclusivement algébriquement dans un espace euclidien réel.
Propriété: Soit
data:image/s3,"s3://crabby-images/cbb8e/cbb8e82dbb44d49a0ff2b5cafd748eec43519353" alt="$A$"
data:image/s3,"s3://crabby-images/ec5a9/ec5a9f1482a33733c81eab320ca4050b68ed12d1" alt="$Y$"
data:image/s3,"s3://crabby-images/b99ae/b99aeb5b093786d01265dae0b6a38e6c9301cf19" alt="$\widetilde{U}$"
data:image/s3,"s3://crabby-images/130c9/130c9b97d3fe2071ef0601025ef64f0d739904c1" alt="$^tAA\widetilde{U}=\,^tAY$"
![\[\text{Min}\Bigl\{\left\|AU-Y\right\|\,,U\in\R^n\Bigr\}
=\left\|A\widetilde{U}-Y\right\|\]](Cours-Ajustement-moindres-carres-IMG/94.png)
data:image/s3,"s3://crabby-images/a5a1f/a5a1ff53c967e292e45fdd54c003782edb2eac5a" alt="$\widetilde{U}$"
Démonstration: Soit
data:image/s3,"s3://crabby-images/e9625/e9625316e7a210c96bad87c820ee26ead959fe07" alt="$h\in\R^n$"
data:image/s3,"s3://crabby-images/4e321/4e3217a0b7f1039386c7820655d7c74811abbc3b" alt="$(u,v)$"
![\[\bgar{ll}
\left\|Y-A\lp\widetilde{U}+h\rp\right\|^2
&=\Bigl( Y-A\lp\widetilde{U}+h\rp,Y-A\lp\widetilde{U}+h\rp\Bigr)\\[1.5em]
&=\Bigl( \lp Y-A\widetilde{U}\rp-Ah,\lp Y-A\widetilde{U}\rp-Ah\Bigr)\\[1.5em]
&=\left\|Y-A\widetilde{U}\right\|^2
-2\Bigl(\lp Y-A\widetilde{U}\rp,Ah\Bigr)
+\left\|Ah\right\|^2\\[1.4em]
&=\left\|Y-A\widetilde{U}\right\|^2
-2\Bigl(\,^tA\lp Y-A\widetilde{U}\rp,h\Bigr)
+\left\|Ah\right\|^2\\[1.4em]
&=\left\|Y-A\widetilde{U}\right\|^2
-2\Bigl(\underbrace{\,^tAY-\,^tAA\widetilde{U}}_{=0},h\Bigr)
+\left\|Ah\right\|^2\\[1.4em]
\enar\]](Cours-Ajustement-moindres-carres-IMG/98.png)
Ainsi, pour tout vecteur
data:image/s3,"s3://crabby-images/74ee6/74ee670ac60253a6334707691d117417ae6873b0" alt="$h$"
![\[\left\|Y-A\lp\widetilde{U}+h\rp\right\|^2
=\left\|Y-A\widetilde{U}\right\|^2+\left\|Ah\right\|^2
\geqslant\left\|Y-A\widetilde{U}\right\|^2\]](Cours-Ajustement-moindres-carres-IMG/100.png)
ce qui montre que
data:image/s3,"s3://crabby-images/b32f6/b32f627a41d524ef839fd0f967a81f426988c1d0" alt="$\left\|Y-A\widetilde{U}\right\|$"
Enfin,
data:image/s3,"s3://crabby-images/ce537/ce537a15ab495027a935338b2c1d1bdd7c9c2821" alt="$\widetilde{u}$"
data:image/s3,"s3://crabby-images/a2561/a256107de68b7e764aff3a6c4b4c3db036188d40" alt="$^tAAU=\,^tAY$"
![\[\bgar{ll}\det\lp\,^tAA\rp&=\left|\bgar{cc}\sum x_i^2 & \sum x_i\\[.6em]\sum x_i & n\enar\right|\\[1.8em]
&=n\sum x_i^2-\lp\sum x_i\rp^2\\[.8em]
&=n^2\lp \dfrac1n\sum x_i^2-\lp\dfrac1n\sum x_i\rp^2\rp\\[1.4em]
&=n^2\text{Var}(X)>0\enar\]](Cours-Ajustement-moindres-carres-IMG/104.png)