Affichage des articles dont le libellé est régression. Afficher tous les articles
Affichage des articles dont le libellé est régression. Afficher tous les articles

dimanche 6 juillet 2025

Dépassons les corrélations !

1. La science est la recherche des mécanismes de phénomène, ce qui passe bien souvent par la recherche de relations entre des séries de mesures : ayant identifié un phénomène, on le caractérise quantitativement, et vient ensuite le moment où, à partir de toutes les données, on cherche des équations à partir de séries de données. Les données sont  alors "ajustées", ce qui ne signifie pas que l'on trafique quoi de quoi que ce soit , mais plutôt que l'on cherche des variations d'une variable en fonction d'une autre.
Par exemple, quand on s'intéresse à la résistance électrique, on cherche les variations de l'intensité du courant en fonction de la différence de potentiel. 

Et c'est là que survient la question de la causalité, si bien décrite par Émile Meyerson dans son Du cheminement de la pensée

La question est de savoir si deux variables varient régulièrement l'une en fonction de l'autre parce qu'il y a causalité, ou bien si elles varient simplement simultanément, peut-être même par hasard, ce qui relève d'une corrélation sans causalité.
Pour expliquer la différence, j'aime cette observation d'attroupements sur le quai des gares avant que les trains arrivent. Si l'on est Martien et que l'on ignore tout du phénomène, on peut donc mesurer le nombre de personnes sur le quai en fonction du temps, d'une part, et l'heure d'arrivée des trains, d'autre part, mais il serait insensé de considérer que les attroupements sont la cause de l'arrivée des trains, car c'est en réalité l'inverse. Il y a donc lieu d'être attentif quand on calcule des coefficients de corrélation (par exemple, des coefficients de corrélation linéaire de Bravais-Pearson) et de bien s'empêcher de penser à des causalités quand il n'y en a pas. 

Ce qui doit nous conduire à réfléchir sur le statut de corrélations. D'ailleurs, il faut ajouter que des corrélations ne sont jamais parfaites, et que c'est précisément ce défaut de corrélation qui doit nous intéresser. Cette imperfection peut évidemment se mesurer par un nombre. Ainsi, quand nos jeunes amis font -de façon extrêmement élémentaire- des "droite de régression", alors ils apprennent  à afficher un nombre que l'on note souvent R2.
Mais c'est une façon rapide de se débarrasser du problème, et elle ne dit d'ailleurs rien d'autre que ce que l'on voit (avec de surcroît des cas terribles, mais c'est une autre histoire). 


Ce qui commence à être plus intéressant, c'est quand on calcule les résidus, c'est-à-dire quand on affiche la courbe de tous les écarts à la droite. Là, on peut commencer à se poser des questions, sur la répartition de ces résidus, aléatoire ou pas, et leur amplitude aussi, bien sûr, doit nous intéresser. Surtout, considérer les résidus au lieu de pousser la poussière sous le tapis du R2, c'est décoller de la corrélation, et plonger davantage du côté du mécanisme, ce que l'on cherche absolument. 

C'est cela la direction où l'on veut aller, plutôt que le paresseux coefficient de corrélation global. Cet affichage des résidus est une bonne pratique, car c'est un fil que l'on peut être intéressé de tirer si l'on veut y passer du temps au lieu de se débarrasser rapidement du problème. C'est là l'endroit où toute notre intelligence est nécessaire pour imaginer de véritables causes.

dimanche 20 septembre 2020

La "corrélation" : méfions-nous un peu !

science/études/cuisine/politique/Alsace/gratitude/émerveillement

 

 

1. Dans les débats publics, dans la presse, on entend souvent le mot "corrélation"... mais sait-on bien de quoi il s'agit ? Et, surtout, en sait-on les limites ?  

2. Ici, je veux signaler l'existence d'un excellent article, certes un peu ancien, mais dont les justes conclusions sont quasi intemporelles. Et ceux qui utilisent le mot "corrélation" devraient bien le lire, pour éviter de dire des âneries.
 

3. D'abord les références de ce texte : Anscombe FJ. 1973. Graphs in statistical analysis, The American Stastitician, vol. 27, N°1, pp 17-21.
L'article discute d'abord de l'importance des graphes... à une époque il n'était pas aussi facile d'en faire qu'aujourd'hui, raison pour laquelle son texte est un peu apologétique, de ce point de vue.
 

4. Mais, rapidement, notre homme discute la question des "régressions", ces analyses que des étudiants qui débutent dans les sciences et les technologies apprennent rapidement à faire, notamment avec ce mauvais logiciel qu'est Excel. 

5. De quoi s'agit-il ? D'analyser une série de données : pensons, par exemple, à la quantité de sucres dans un bouillon de carottes, en fonction du temps de cuisson. On obtient une telle série de données en faisant des bouillons de carotte, et en dosant les sucres à des temps de cuisson différents, et en analysant ces échantillons, afin de savoir combien ils renferment de sucre.
 

6. Ayant fait les analyses, on "contemple" les résultats, qui s'affichent d'abord sous la forme d'un tableau de nombres tel que :



7. C'est immangeable ! La première chose à faire, pour se parler à soi-même et parler aux autres, du résultat obtenu, consiste à représenter ces couples de données, sur un graphe. Les temps de mesure sont sur l'horizontale du bas, et les mesures des quantités de sucres sont sur la verticale de gauche ; à l'intersection de la verticale qui part du temps 5 (en bas), par exemple, et de l'horizontale qui part de la quantité 5,5 (à gauche), on met un point qui correspond à la mesure (temps =5, quantité = 5,5).
Et l'on fait ainsi pour tous les points. De sorte que l'on obtient un graphe fait des onze points de mesure.
 

8. Mais on voit bien, sur ce graphe, que plus le temps de cuisson augmente, et plus la quantité semble augmenter aussi. Et c'est là que les étudiants apprennent à tracer une "droite de régression", qui est la droite qui passe "le mieux" par les différents de mesure. Je passe sur le calcul simple qui permet de faire cette droite, pour me limiter à dire que beaucoup de ceux qui en font se contentent d'indiquer la "qualité de la régression" (de combien la droite passe bien ou mal par les points) à l'aide nombre qui est désigné par R2. Pour R2 égal à 1, les points sont parfaitement alignés sur la droite. Sur la figure 2, je montre une droite de régression et onze points, avec un R2 qui est égal à 0,667. 


 

9. Là où il faut faire attention, c'est que pour la figure 3, le R2 est encore égal à 0,667 ! 

 


10. Tout comme la figure 4. 

 


11. Tout comme pour la figure 5 !

 


 

12. On le voit, le R2 qui tous les débutants apprennent est bien insuffisant. Bien sûr, il faut commencer un jour, mais ne nous contentons pas de ce début. Avançons 


mardi 25 août 2020

A propos de régression

 Rubrique :  science/politique/études/cuisine

Je vais prendre du temps plus tard, mais quand même : vite, vous donner la référence :

Graphs in Statistical Analysis
F. J. Anscombe
The American Statistician, Vol. 27, No. 1. (Feb., 1973), pp. 17-21.

A lire sans modération.

vendredi 27 novembre 2015

Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y  a lieu de s'interroger sur l'enseignement que  nous donnons.

Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.


La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y  a lieu de s'interroger sur l'enseignement que  nous donnons.

Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.


La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html