Il y a quelques années, j'avais trouvé un article d'Antoine Laurent de Lavoisier sur la confection du bouillon de viande. Lavoisier avait été mandaté par le ministre de la Marine pour explorer la question suivante : combien fallait-il donner de viande aux hôpitaux de Paris pour produire le bouillon qui nourrissait alors les convalescents ?
Et Lavoisier avait essentiellement répondu par des mesures de la densité des bouillons, comprenant très intelligemment que ces derniers devaient leur qualité nutritives à la quantité de matière gélatineuse qui était extraite.
Les expériences étaient tout à fait extraordinaires, et le dispositif expérimental absolument merveilleux.
Pour autant, quand Lavoisier avait publié ses résultats, il avait manifestement ajusté ses données : j'ai eu l'occasion d'observer que les données communiquées s'alignent parfaitement sur une droite... ce qui n'est pas possible.
De surcroît, Lavoisier affichait des valeurs de densités à six décimales, bien au-delà des possibilités expérimentales.
Initialement, quand j'ai observé cela, mon petit esprit m'a fait croire que Lavoisier avait triché, donnant des résultats différents de ceux qu'il avait obtenus.
Mais je le répète, je suis un petit esprit et j'aurais mieux fait de penser que quelqu'un qui aurait voulu tricher n'aurait précisément pas ajusté les données exactement.
Il aurait introduit de petites imperfections pour laisser penser qu'il s'agissait de véritables résultats.
Je constate donc que je manque de grandeur et j'aurais dû considérer plus tôt que la méthodologie scientifique de l'époque était encore rudimentaire, que les nains que nous sommes, perchés sur les épaules des géants, n'avaient pas encore compris la notion de chiffre significatif, que nous devons nos bonnes pratiques d'aujourd'hui à quelques génies tels que Lavoisier.
Et je fais donc amende honorable.
Ce blog contient: - des réflexions scientifiques - des mécanismes, des phénomènes, à partir de la cuisine - des idées sur les "études" (ce qui est fautivement nommé "enseignement" - des idées "politiques" : pour une vie en collectivité plus rationnelle et plus harmonieuse ; des relents des Lumières ! Pour me joindre par email : herve.this@inrae.fr
Affichage des articles dont le libellé est ajustement. Afficher tous les articles
Affichage des articles dont le libellé est ajustement. Afficher tous les articles
jeudi 11 décembre 2025
Sutor non supra crepidam : cordonnier, pas plus haut que la chaussure (pardon aux bons cordonniers)
samedi 4 octobre 2025
À partir d'une image
Quand on voit une telle image, on ne peut manquer de penser à ce que l'on nomme l'opération de régression linéaire et, aussi, à la possibilité d'une triche !
Souvent, lors des analyses, on obtient une série de valeurs que l'on peut ranger sur un diagramme à deux dimensions, avec la valeur de commande en abscisse et le signal enregistré en ordonnée. Par exemple, imaginons que l'on mesure l'intensité d'un courant électrique créé par une différence de potentiel électrique, ou l'absorption lumineuse quand on éclaire une solution d'un composé dont on étudie la concentration.
Les couples de valeurs sont ce que l'on nomme des points expérimentaux.
L'opération d'ajustement, qui apparaît en troisième lieu, dans la démarche scientifique, consiste à chercher des relations entre ces points.
Par exemple, souvent, on cherche à savoir s'ils sont alignés, auquel cas il y aurait une relation de proportionnalité entre les valeurs des abscisses et les valeurs des ordonnées.
Pour les commençants, cette opération se fait avec ce que l'on nomme la régression linéaire, et plus précisément la recherche d'une droite par la méthode des moindres carrés, introduite par le merveilleux mathématicien Carl Friedrich Gauss : on cherche une droite qui, ne pouvant passer exactement par tous les points expérimentaux (sauf miracle), passe le mieux possible, ce qui se calcule en minimisant la distance des points à la droite.
La qualité de cet ajustement s'exprime notamment par un paramètres que l'on note R2 (je renvoie vers les cours complets), et qui s'approche de 1, pour les ajustements qui seraient parfaits (ce qui est impossible). J'ajoute qu'il n'y a pas lieu d'être braqué sur cette méthode, et notamment le R2, et qu'il existe une "hyperbole de confiance" qui mérite d'être mieux connue qu'elle ne l'est.
Mais revenons à notre R2 : comme il s'agit d'expérience, il ne peut y avoir de proportionnalité exacte et R2 sera toujours inférieur à 1.
Certes, dans les bons cas, il pourrait être de 0,99 ou 0,9999 mais pas 1 exactement !
De sorte que si l'on voit un R2 = 1, cela peut signifier soit que la valeur de R2 a été arrondie, ce qui n'est pas à faire puisqu'on laisserait penser à un alignement parfait, soit que l'on a changé les valeurs des points pour qu'il s'alignent exactement... ce qui n'est pas admissible.
Les points expérimentaux sont des points expérimentaux jamais parfaitement alignés, et la droite que l'on trace est une droite parfaitement rectiligne, mais elle ne peut pas passer exactement par les points expérimentaux.
Il y a un monde entre les points expérimentaux, qui relèvent de l'expérience, et la droite, qui de relève de la modélisation. Il ne faut pas tout confondre
jeudi 7 novembre 2019
Dépassons les corrélations
La science est la recherche des mécanismes de phénomène, ce qui passe bien souvent par la recherche de relations entre des séries de mesures : ayant identifié un phénomène, on le caractérise quantitativement, et vient ensuite, à partir de toutes les données, de chercher des équations à partir de séries de données. Les données sont "ajustées", ce qui ne signifie pas que l'on trafique quoi de quoi que ce soit , mais plutôt que l'on cherche des variations d'une variable en fonction d'une autre. Par exemple, quand on s'intéresse à la résistance électrique, on cherche les variations de l'intensité du courant en fonction de la différence de potentiel.
Et c'est là que survient la question de la causalité, si bien décrite par Émile Meyerson dans son Du cheminement de la pensée. La question est de savoir si deux variables varient régulièrement l'une en fonction de l'autre parce qu'il y a causalité, ou bien si elles varient simplement simultanément, peut-être même par hasard, ce qui relève d'une corrélation sans causalité. Pour expliquer la différence, j'aime cette observation d'attroupements sur le quai des gares avant que les trains arrivent. Si l'on est Martien et que l'on ignore tout du phénomène, on peut donc mesurer le nombre de personnes sur le quai en fonction du temps, d'une part, et l'heure d'arrivée des trains, d'autre part, mais il serait insensé de considérer que les attroupements sont la cause de l'arrivée des trains, car c'est en réalité l'inverse.
Il y a donc lieu d'être attentif quand on calcule des coefficients de corrélation et de bien s'empêcher de penser à des causalités quand il n'y en a pas. Ce qui doit nous conduire à réfléchir sur le statut de corrélations. D'ailleurs, il faut ajouter que des corrélations ne sont jamais parfaites, et que c'est précisément ce défaut de corrélation qui doit nous intéresser. Cette imperfection peut évidemment se mesurer par un nombre. Ainsi, quand on fait -de façon extrêmement élémentaire- des droite de régression, alors on apprend à afficher la somme des carrés des distances des points à la droite, un nombre que l'on note souvent R2. Mais c'est une façon rapide de se débarrasser du problème et elle ne dit d'ailleurs rien d'autre que ce que l'on voit.
Ce qui commence à être plus intéressant, c'est quand on calcule les résidus, c'est-à-dire quand on affiche la courbe de tous les écarts à la droite. Là, on peut commencer à se poser des questions, sur la répartition de ces résidus, aléatoire ou pas, et leur amplitude aussi, bien sûr, doit nous intéresser. Surtout, considérer les résidus au lieu de pousser la poussière sous le tapis du R2, c'est décoller de la corrélation, et plonger davantage du côté du mécanisme, ce que l'on cherche absolument.
C'est cela la direction où l'on veut aller, plutôt que le paresseux coefficient de corrélation global. Cet affichage des résidus est une bonne pratique, car c'est un fil que l'on peut être intéressé de tirer si l'on veut y passer du temps au lieu de se débarrasser rapidement du problème.
C'est là l'endroit où toute notre intelligence est nécessaire pour imaginer de véritables causes.
Et c'est là que survient la question de la causalité, si bien décrite par Émile Meyerson dans son Du cheminement de la pensée. La question est de savoir si deux variables varient régulièrement l'une en fonction de l'autre parce qu'il y a causalité, ou bien si elles varient simplement simultanément, peut-être même par hasard, ce qui relève d'une corrélation sans causalité. Pour expliquer la différence, j'aime cette observation d'attroupements sur le quai des gares avant que les trains arrivent. Si l'on est Martien et que l'on ignore tout du phénomène, on peut donc mesurer le nombre de personnes sur le quai en fonction du temps, d'une part, et l'heure d'arrivée des trains, d'autre part, mais il serait insensé de considérer que les attroupements sont la cause de l'arrivée des trains, car c'est en réalité l'inverse.
Il y a donc lieu d'être attentif quand on calcule des coefficients de corrélation et de bien s'empêcher de penser à des causalités quand il n'y en a pas. Ce qui doit nous conduire à réfléchir sur le statut de corrélations. D'ailleurs, il faut ajouter que des corrélations ne sont jamais parfaites, et que c'est précisément ce défaut de corrélation qui doit nous intéresser. Cette imperfection peut évidemment se mesurer par un nombre. Ainsi, quand on fait -de façon extrêmement élémentaire- des droite de régression, alors on apprend à afficher la somme des carrés des distances des points à la droite, un nombre que l'on note souvent R2. Mais c'est une façon rapide de se débarrasser du problème et elle ne dit d'ailleurs rien d'autre que ce que l'on voit.
Ce qui commence à être plus intéressant, c'est quand on calcule les résidus, c'est-à-dire quand on affiche la courbe de tous les écarts à la droite. Là, on peut commencer à se poser des questions, sur la répartition de ces résidus, aléatoire ou pas, et leur amplitude aussi, bien sûr, doit nous intéresser. Surtout, considérer les résidus au lieu de pousser la poussière sous le tapis du R2, c'est décoller de la corrélation, et plonger davantage du côté du mécanisme, ce que l'on cherche absolument.
C'est cela la direction où l'on veut aller, plutôt que le paresseux coefficient de corrélation global. Cet affichage des résidus est une bonne pratique, car c'est un fil que l'on peut être intéressé de tirer si l'on veut y passer du temps au lieu de se débarrasser rapidement du problème.
C'est là l'endroit où toute notre intelligence est nécessaire pour imaginer de véritables causes.
vendredi 27 novembre 2015
Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y a lieu de s'interroger sur l'enseignement que nous donnons.
Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.
La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.
La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
Pour les apprenants en sciences (bien qu'on apprenne sans cesse), par exemple en licence, on enseigne l'usage des droites de régression, et je vois qu'il y a lieu de s'interroger sur l'enseignement que nous donnons.
Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.
La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
Posons le problème. Soit une série de données, par exemple des ordonnées en fonction d'abscisses ; nous cherchons à savoir si les couples de points (abscisse, ordonnée) sont alignés sur une droite.
La suite sur http://www.agroparistech.fr/Les-droites-de-regression-et-l-enseignement.html
dimanche 17 août 2014
La loi n'est pas la fin de la science
L'avantage,
quand on est « insuffisant », c'est que l'on a la
possibilité de s'améliorer. L'avantage, quand on n'a pas de maître,
c'est que, certes, on fait des erreurs qu'il nous aurait peut être
évitées, mais que, si l'on traque le « symptôme », on
peut progresser.
Je
me souviens ainsi d'un jour où je lisais un manuscrit d'article
scientifique qu'une revue m'avait demandé de « rapporter ».
Je lisais donc d'abord l'introduction, m'assurant que la question
posée était claire, que la bibliographie avait été bien faite.
Puis je regardais attentivement la partie « Matériels et
méthodes », afin de m'assurer que les informations étaient
suffisantes, que toutes les précautions méthodologiques avaient été
bien prises par les auteurs. Je passais aux résultats, et m'assurais
que rien d'exagéré n'était produit, que les résultats
correspondaient donc bien aux méthodes mises en œuvre, que le
traitement statistique était bien fait. Puis je lus la discussion,
pour voir si tout était cohérent.
Tout
allait bien. Certes, il y avait des détails à corriger, mais rien
de bien grave... sauf que je trouvais l'article médiocre.
Logiquement,
j'aurais dû dire à l'éditeur que l'article était acceptable, mais
quelque chose me retenait. Quoi ? Je ne savais pas. De sorte que
je décidais de lire une fois de plus, et je ne retrouvais que bien
peu de choses supplémentaires à corriger. Je mis le manuscrit dans
mon cartable, et décidai de laisser passer la nuit.
Le
lendemain matin, dans l'autobus, je le sortis de mon cartable, je le
relus... et tout s'éclaira ! Les auteurs avaient caractérisé
un phénomène, et ils n'avaient en réalité pas considéré les
mécanismes compatibles avec les lois qu'ils avaient dégagées !
Ce n'était donc pas un travail scientifique, en quelque sorte, mais
seulement une étape sur le chemin scientifique.
A
la réflexion, ma réaction était injuste* : tout ce qui figure
sur le chemin de la science (observation de phénomènes,
caractérisation quantitative, réunion des mesures en lois
synthétiques, recherche de mécanismes, prévision théorique, test
expérimental de ces prévisions) est un bout de science, et mérite
donc publication, parce que cela fait avancer le travail.
*
En réalité, pas complètement : ajuster des données par une
fonction, comme les auteurs l'avaient fait, nécessite d'avoir une
raison de choisir cette fonction particulière !
Inscription à :
Commentaires (Atom)
