La science est la recherche des mécanismes de phénomène, ce qui passe bien souvent par la recherche de relations entre des séries de mesures : ayant identifié un phénomène, on le caractérise quantitativement, et vient ensuite, à partir de toutes les données, de chercher des équations à partir de séries de données. Les données sont "ajustées", ce qui ne signifie pas que l'on trafique quoi de quoi que ce soit , mais plutôt que l'on cherche des variations d'une variable en fonction d'une autre. Par exemple, quand on s'intéresse à la résistance électrique, on cherche les variations de l'intensité du courant en fonction de la différence de potentiel.
Et c'est là que survient la question de la causalité, si bien décrite par Émile Meyerson dans son Du cheminement de la pensée. La question est de savoir si deux variables varient régulièrement l'une en fonction de l'autre parce qu'il y a causalité, ou bien si elles varient simplement simultanément, peut-être même par hasard, ce qui relève d'une corrélation sans causalité. Pour expliquer la différence, j'aime cette observation d'attroupements sur le quai des gares avant que les trains arrivent. Si l'on est Martien et que l'on ignore tout du phénomène, on peut donc mesurer le nombre de personnes sur le quai en fonction du temps, d'une part, et l'heure d'arrivée des trains, d'autre part, mais il serait insensé de considérer que les attroupements sont la cause de l'arrivée des trains, car c'est en réalité l'inverse.
Il y a donc lieu d'être attentif quand on calcule des coefficients de corrélation et de bien s'empêcher de penser à des causalités quand il n'y en a pas. Ce qui doit nous conduire à réfléchir sur le statut de corrélations. D'ailleurs, il faut ajouter que des corrélations ne sont jamais parfaites, et que c'est précisément ce défaut de corrélation qui doit nous intéresser. Cette imperfection peut évidemment se mesurer par un nombre. Ainsi, quand on fait -de façon extrêmement élémentaire- des droite de régression, alors on apprend à afficher la somme des carrés des distances des points à la droite, un nombre que l'on note souvent R2. Mais c'est une façon rapide de se débarrasser du problème et elle ne dit d'ailleurs rien d'autre que ce que l'on voit.
Ce qui commence à être plus intéressant, c'est quand on calcule les résidus, c'est-à-dire quand on affiche la courbe de tous les écarts à la droite. Là, on peut commencer à se poser des questions, sur la répartition de ces résidus, aléatoire ou pas, et leur amplitude aussi, bien sûr, doit nous intéresser. Surtout, considérer les résidus au lieu de pousser la poussière sous le tapis du R2, c'est décoller de la corrélation, et plonger davantage du côté du mécanisme, ce que l'on cherche absolument.
C'est cela la direction où l'on veut aller, plutôt que le paresseux coefficient de corrélation global. Cet affichage des résidus est une bonne pratique, car c'est un fil que l'on peut être intéressé de tirer si l'on veut y passer du temps au lieu de se débarrasser rapidement du problème.
C'est là l'endroit où toute notre intelligence est nécessaire pour imaginer de véritables causes.
Ce blog contient: - des réflexions scientifiques - des mécanismes, des phénomènes, à partir de la cuisine - des idées sur les "études" (ce qui est fautivement nommé "enseignement" - des idées "politiques" : pour une vie en collectivité plus rationnelle et plus harmonieuse ; des relents des Lumières ! Pour me joindre par email : herve.this@inrae.fr
Affichage des articles dont le libellé est ajustement. Afficher tous les articles
Affichage des articles dont le libellé est ajustement. Afficher tous les articles
jeudi 7 novembre 2019
vendredi 27 novembre 2015
Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y a lieu de s'interroger sur l'enseignement que nous donnons.
Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.
La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.
La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y a lieu de s'interroger sur l'enseignement que nous donnons.
Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.
La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.
La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
dimanche 17 août 2014
La loi n'est pas la fin de la science
L'avantage,
quand on est « insuffisant », c'est que l'on a la
possibilité de s'améliorer. L'avantage, quand on n'a pas de maître,
c'est que, certes, on fait des erreurs qu'il nous aurait peut être
évitées, mais que, si l'on traque le « symptôme », on
peut progresser.
Je
me souviens ainsi d'un jour où je lisais un manuscrit d'article
scientifique qu'une revue m'avait demandé de « rapporter ».
Je lisais donc d'abord l'introduction, m'assurant que la question
posée était claire, que la bibliographie avait été bien faite.
Puis je regardais attentivement la partie « Matériels et
méthodes », afin de m'assurer que les informations étaient
suffisantes, que toutes les précautions méthodologiques avaient été
bien prises par les auteurs. Je passais aux résultats, et m'assurais
que rien d'exagéré n'était produit, que les résultats
correspondaient donc bien aux méthodes mises en œuvre, que le
traitement statistique était bien fait. Puis je lus la discussion,
pour voir si tout était cohérent.
Tout
allait bien. Certes, il y avait des détails à corriger, mais rien
de bien grave... sauf que je trouvais l'article médiocre.
Logiquement,
j'aurais dû dire à l'éditeur que l'article était acceptable, mais
quelque chose me retenait. Quoi ? Je ne savais pas. De sorte que
je décidais de lire une fois de plus, et je ne retrouvais que bien
peu de choses supplémentaires à corriger. Je mis le manuscrit dans
mon cartable, et décidai de laisser passer la nuit.
Le
lendemain matin, dans l'autobus, je le sortis de mon cartable, je le
relus... et tout s'éclaira ! Les auteurs avaient caractérisé
un phénomène, et ils n'avaient en réalité pas considéré les
mécanismes compatibles avec les lois qu'ils avaient dégagées !
Ce n'était donc pas un travail scientifique, en quelque sorte, mais
seulement une étape sur le chemin scientifique.
A
la réflexion, ma réaction était injuste* : tout ce qui figure
sur le chemin de la science (observation de phénomènes,
caractérisation quantitative, réunion des mesures en lois
synthétiques, recherche de mécanismes, prévision théorique, test
expérimental de ces prévisions) est un bout de science, et mérite
donc publication, parce que cela fait avancer le travail.
*
En réalité, pas complètement : ajuster des données par une
fonction, comme les auteurs l'avaient fait, nécessite d'avoir une
raison de choisir cette fonction particulière !
Inscription à :
Articles (Atom)