Hervé This: ajustement

Affichage des articles dont le libellé est ajustement. Afficher tous les articles

jeudi 7 novembre 2019

Dépassons les corrélations

La science est la recherche des mécanismes de phénomène, ce qui passe bien souvent par la recherche de relations entre des séries de mesures : ayant identifié un phénomène, on le caractérise quantitativement, et vient ensuite, à partir de toutes les données, de chercher des équations à partir de séries de données. Les données sont "ajustées", ce qui ne signifie pas que l'on trafique quoi de quoi que ce soit , mais plutôt que l'on cherche des variations d'une variable en fonction d'une autre. Par exemple, quand on s'intéresse à la résistance électrique, on cherche les variations de l'intensité du courant en fonction de la différence de potentiel.

Et c'est là que survient la question de la causalité, si bien décrite par Émile Meyerson dans son Du cheminement de la pensée. La question est de savoir si deux variables varient régulièrement l'une en fonction de l'autre parce qu'il y a causalité, ou bien si elles varient simplement simultanément, peut-être même par hasard, ce qui relève d'une corrélation sans causalité. Pour expliquer la différence, j'aime cette observation d'attroupements sur le quai des gares avant que les trains arrivent. Si l'on est Martien et que l'on ignore tout du phénomène, on peut donc mesurer le nombre de personnes sur le quai en fonction du temps, d'une part, et l'heure d'arrivée des trains, d'autre part, mais il serait insensé de considérer que les attroupements sont la cause de l'arrivée des trains, car c'est en réalité l'inverse.
Il y a donc lieu d'être attentif quand on calcule des coefficients de corrélation et de bien s'empêcher de penser à des causalités quand il n'y en a pas. Ce qui doit nous conduire à réfléchir sur le statut de corrélations. D'ailleurs, il faut ajouter que des corrélations ne sont jamais parfaites, et que c'est précisément ce défaut de corrélation qui doit nous intéresser. Cette imperfection peut évidemment se mesurer par un nombre. Ainsi, quand on fait -de façon extrêmement élémentaire- des droite de régression, alors on apprend à afficher la somme des carrés des distances des points à la droite, un nombre que l'on note souvent R2. Mais c'est une façon rapide de se débarrasser du problème et elle ne dit d'ailleurs rien d'autre que ce que l'on voit.
Ce qui commence à être plus intéressant, c'est quand on calcule les résidus, c'est-à-dire quand on affiche la courbe de tous les écarts à la droite. Là, on peut commencer à se poser des questions, sur la répartition de ces résidus, aléatoire ou pas, et leur amplitude aussi, bien sûr, doit nous intéresser. Surtout, considérer les résidus au lieu de pousser la poussière sous le tapis du R2, c'est décoller de la corrélation, et plonger davantage du côté du mécanisme, ce que l'on cherche absolument.

C'est cela la direction où l'on veut aller, plutôt que le paresseux coefficient de corrélation global. Cet affichage des résidus est une bonne pratique, car c'est un fil que l'on peut être intéressé de tirer si l'on veut y passer du temps au lieu de se débarrasser rapidement du problème.
C'est là l'endroit où toute notre intelligence est nécessaire pour imaginer de véritables causes.

vendredi 27 novembre 2015

Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y a lieu de s'interroger sur l'enseignement que nous donnons.

Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.

La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html

dimanche 17 août 2014

La loi n'est pas la fin de la science

L'avantage, quand on est « insuffisant », c'est que l'on a la possibilité de s'améliorer. L'avantage, quand on n'a pas de maître, c'est que, certes, on fait des erreurs qu'il nous aurait peut être évitées, mais que, si l'on traque le « symptôme », on peut progresser.

Je me souviens ainsi d'un jour où je lisais un manuscrit d'article scientifique qu'une revue m'avait demandé de « rapporter ». Je lisais donc d'abord l'introduction, m'assurant que la question posée était claire, que la bibliographie avait été bien faite. Puis je regardais attentivement la partie « Matériels et méthodes », afin de m'assurer que les informations étaient suffisantes, que toutes les précautions méthodologiques avaient été bien prises par les auteurs. Je passais aux résultats, et m'assurais que rien d'exagéré n'était produit, que les résultats correspondaient donc bien aux méthodes mises en œuvre, que le traitement statistique était bien fait. Puis je lus la discussion, pour voir si tout était cohérent.

Tout allait bien. Certes, il y avait des détails à corriger, mais rien de bien grave... sauf que je trouvais l'article médiocre.

Logiquement, j'aurais dû dire à l'éditeur que l'article était acceptable, mais quelque chose me retenait. Quoi ? Je ne savais pas. De sorte que je décidais de lire une fois de plus, et je ne retrouvais que bien peu de choses supplémentaires à corriger. Je mis le manuscrit dans mon cartable, et décidai de laisser passer la nuit.

Le lendemain matin, dans l'autobus, je le sortis de mon cartable, je le relus... et tout s'éclaira ! Les auteurs avaient caractérisé un phénomène, et ils n'avaient en réalité pas considéré les mécanismes compatibles avec les lois qu'ils avaient dégagées ! Ce n'était donc pas un travail scientifique, en quelque sorte, mais seulement une étape sur le chemin scientifique.

A la réflexion, ma réaction était injuste* : tout ce qui figure sur le chemin de la science (observation de phénomènes, caractérisation quantitative, réunion des mesures en lois synthétiques, recherche de mécanismes, prévision théorique, test expérimental de ces prévisions) est un bout de science, et mérite donc publication, parce que cela fait avancer le travail.

* En réalité, pas complètement : ajuster des données par une fonction, comme les auteurs l'avaient fait, nécessite d'avoir une raison de choisir cette fonction particulière !