Affichage des articles dont le libellé est règles de bonnes pratiques en science. Afficher tous les articles
Affichage des articles dont le libellé est règles de bonnes pratiques en science. Afficher tous les articles

jeudi 7 novembre 2019

Dépassons les corrélations

La science est  la recherche des mécanismes de phénomène, ce qui passe bien souvent par la recherche de relations entre des séries de mesures : ayant identifié un phénomène, on le caractérise quantitativement, et vient ensuite, à partir de toutes les données, de chercher des équations à partir de séries de données. Les données sont "ajustées", ce qui ne signifie pas que l'on trafique quoi de quoi que ce soit , mais plutôt que l'on cherche des variations d'une variable  en fonction d'une autre. Par exemple, quand on s'intéresse à la résistance électrique, on cherche les variations de l'intensité du courant en fonction de la différence de potentiel.

Et c'est là que survient la question de la causalité, si bien décrite par Émile Meyerson dans son Du cheminement de la pensée. La question est de savoir si deux variables varient régulièrement l'une en fonction de l'autre parce qu'il y a causalité, ou bien si elles varient simplement simultanément, peut-être même par hasard, ce qui relève d'une corrélation sans causalité. Pour expliquer la différence, j'aime cette observation d'attroupements sur le quai des gares avant que les trains arrivent. Si l'on est  Martien et que l'on ignore tout du phénomène, on peut donc mesurer le nombre de personnes sur le quai en fonction du temps, d'une part,  et l'heure d'arrivée des trains, d'autre part, mais il serait insensé de considérer que les attroupements sont la cause de l'arrivée des trains, car c'est en réalité l'inverse.
Il y a donc lieu d'être attentif quand on calcule des coefficients de corrélation et de bien s'empêcher de penser à des causalités quand il n'y en a pas. Ce qui doit nous conduire à réfléchir sur le statut de corrélations. D'ailleurs, il faut ajouter que des corrélations ne sont jamais parfaites, et que c'est précisément ce défaut de corrélation qui doit nous intéresser. Cette imperfection peut évidemment se mesurer par un nombre. Ainsi, quand on fait -de façon extrêmement élémentaire- des droite de régression, alors on apprend à afficher la somme des carrés des distances des points à la droite, un nombre que l'on note souvent R2. Mais c'est une façon rapide de se débarrasser du problème et elle ne dit d'ailleurs rien d'autre que ce que l'on voit.
Ce qui commence à être plus intéressant, c'est quand on calcule les résidus, c'est-à-dire quand on affiche la courbe de tous les écarts à la droite. Là, on peut commencer à se poser des questions, sur la  répartition de ces résidus, aléatoire ou pas,  et  leur amplitude aussi, bien sûr,  doit nous intéresser. Surtout, considérer les résidus au lieu de pousser la poussière sous le tapis du R2, c'est décoller de la corrélation, et plonger davantage du côté du mécanisme, ce que l'on cherche absolument.

C'est cela la direction où l'on veut aller,  plutôt  que le paresseux coefficient de corrélation global. Cet affichage des résidus est une bonne pratique, car c'est un fil que l'on peut être intéressé de tirer si l'on veut y passer du temps au lieu de se débarrasser rapidement du problème.
C'est là l'endroit où toute notre intelligence est nécessaire pour imaginer de véritables causes.

lundi 29 juillet 2019

De l'émerveillement partagé

Alors que je viens  de dénoncer des pratiques scientifiques minables, à savoir l'affichage de nombres avec un nombre de décimales excessif, j'analyse que cette pratique n'est pas grave pour un étudiant qui apprend, mais le devient pour des scientifiques confirmés.
Mais, surtout, je m'interroge en revoyant ce titre  : "De  l'émerveillement partagé", que j'utilisais largement naguère, et que j'ai réservé à une rubrique de mon site (https://sites.google.com/site/travauxdehervethis/Home/et-plus-encore/de-l-emerveillement-partage).
Dans le premier cas (la dénonciation), je me lamente,  mais dans l'autre cas, je me réjouis. Et mon esprit très positif ne se résout pas aux lamentations, de sorte que se pose la question du traitement de l'informatique négative, et sa transformation en information positive.

Partons donc de l'exemple cité plus haut, qui provient d'une publication d'épidémiologie nutritionnelle, laquelle prévoit un nombre de malade à l'unité près. Cela s'apparente la pratique culinaire risible qui était préconisée par le Guide culinaire, à savoir d'utiliser 0,32 grammes de sel. On se doute qu'il s'agissait alors moins de prendre 0,32 grammes de sel que de prendre trois fois moins qu'un gramme, par rapport à une recette où les autres ingrédients étaient plus abondants. Dans le cas culinaire, on a échappé de peu à un affichage de 0,33333...  grammes, car les auteurs ou l'éditeur ont  décidé d'arrondir, assez maladroitement toutefois.

Et j'entends mes auteurs se demander : comment donc indiquer la quantité de sel nécessaire ? Il y a plusieurs solutions possibles à commencer par celle qui aurait été de dire : "goûtez".
On aurait pu aussi dire qu'il fallait mettre un gramme pour trois fois plus d'ingrédients, de sorte que l'on aurait compris qu'il fallait mettre à peu près 3 fois moins que 1 gramme.

Mais revenons au cas de du travail d'épidémiologie nutritionnelle et demandons-nous comment en faire quelque chose de positif. D'une part cela peut-être un exemple amusant de ce qu'il ne faut pas faire,  que l'on peut montrer aux étudiants : au lieu de se lamenter, rions-en.
D'autre part, on peut aussi utiliser ce cas pour s'interroger positivement sur le nombre de chiffres significatif qu'il va faut afficher. Et là, la question devient très intéressante puisqu'il s'agit d'une vraie question scientifique. Car l'affichage des résultats, parfois après un long travail, et un résultat au premier ordre, qu'il faut savourer avant de passer au deuxième ordre, c'est-à-dire chercher la validité du résultat, sa précision, calculer les incertitudes...  Cela est un travail du  deuxième ordre... qui incite à poursuivre au troisième ordre. Qu'y voyez-vous ?

samedi 2 février 2019

Les bonnes pratiques : les chiffres significatifs

À propos de caractérisation quantitative des phénomènes, il y a lieu d'évoquer la question des chiffres significatifs.

En principe,  tout est simple : on comprend bien qu'avec une règle 20 m de long, il n'est pas possible de mesurer une distance de 3 centimètres, et l'on comprend aussi qu'avec une règle qui comporte des graduations tous les centimètres, on ne peut pas dire qu'un segment aurait une longueur de 4,44425 centimètres : les décimales sont indues.
Tout est dans cette idée,  mais le mauvais maniement des chiffres significatifs s'observe trop souvent dans les manuscrits qui sont soumis pour publication, voire qui sont publiés !
Pourquoi cela ? Parce que les auteurs sont insuffisamment attentifs ? Parce qu'ils affichent des résultats de division, sans prendre garde à l'apparition de décimales indues ? Parce qu'ils ignorent les règles - des conventions -internationales, notamment à propos de la "propagation des incertitudes" ? Je n'oserais évidemment pas évoquer le fait que  les capacités de calcul de certains puissent être insuffisantes... mais quand même, je m'interroge parfois.


Commençons par observer qu'il y a des  conventions internationales à propos de l'affichage des chiffres significatifs, et ces conventions sont quand même du bon sens, comme dans le premier exemple donné. Bien sûr, il  a aussi de la convention, comme utiliser une racine carrée de carrés ("distance euclidienne") plutôt qu'un somme de valeurs absolues ("distance de Manhattan") pour composer des incertitudes*, mais tout cela n'est guère difficile. 
Cela étant, je vois que certains sites officiels qui discutent ces questions (par exemple, http://www.chemistry.wustl.edu/~coursedev/Online%20tutorials/SigFigs.htm) sont bien insuffisants, car ils ne justifient ce qu'ils avancent par aucune référence (et pour celui-ci, il y a une confusion entre "nombre" et "chiffre" !). C'est d'ailleurs une critique que je me fais personnellement, dans ce blog, et je me promets de me corriger. En l'occurrence, le bon document est BIPM,  IEC,  IFCC,  ISO,  IUPAC,  OIML,  “Guide  to  the  expression  of  uncertainty  in   measurement”.   International   Organisation   for   Standardisation,   Geneva, Switzerland,  ISBN  92-67-10188-9,  First  Edition,  1993.

Commençons par les règles :
1. Les chiffres significatifs sont ceux qui doivent figurer dans l'expression d''une mesure ou d'une quantité calculée. Ils portent, en plus de leur valeur numérique, l'indication de la précision de la mesure exprimée.
2. Les chiffres différents de zéro sont significatifs
3. Tout zéro entre deux chiffres différents de zéro est significatif
4. Un zéro final ou des zéros successifs de la partie décimale sont significatifs
5. En cas de confusion, la notation scientifique s'impose. Par exemple, pour 4000, on hésite entre 1 et 4 chiffres significatifs. Mais si l'on écrit 4 103, alors un seul chiffre et significatif, alors que pour 4,000 103, il y a quatre chiffres significatifs.


Nous sommes bien d'accord qu'il y a là une question de convention, comme pour la composition des incertitudes, où l'on s'est résolu depuis quelques années à utiliser une formule particulière, commune pour tous,  décidée collectivement. Une convention, tout comme le port de la cravate dans certains milieux, ou le port de la casquette à l'envers dans d'autres, est une règle qu'il faut connaître et appliquer sous peine de ne pas être bien compris, bien admis dans la communauté.

 Au fond, tout cela est une question de communication : quelqu'un qui voudrait désigner un chien par le mot "chat" serait incompris.  Et il y a évidemment des relations avec l'honnêteté, car quelqu'un qui vendrait un chat pour un chien serait malhonnêtes.

Bref, dans toute cette affaire (je reviens aux chiffres significatifs), il y a une question de probité essentielle.
Bien sûr, il peut exister des étudiants qui ignorent la règle, mais alors ils sont comme des enfants qui ne savent pas parler. Bien sûr, il y a des cas qui sont moins caricaturaux que ceux que j'ai donnés en introduction. Par exemple, quand un instrument de mesure affiche  4 décimales, la question est alors de savoir si ces quatre décimales doivent être donnés, et comment indiquer sa (relative) imprécision : les conventions l'indiquent. Tous, nous devons donc maîtriser tout cela. Ce n'est pas difficile, il faut du bon sens... mais il suffit souvent d'y passer un peu de temps.