Affichage des articles dont le libellé est chiffres significatifs. Afficher tous les articles
Affichage des articles dont le libellé est chiffres significatifs. Afficher tous les articles

mardi 27 octobre 2020

Ce n'est pas vrai !


Dans une revue scientifique "reculée", je trouve un article qui dit des choses fausses à propos des "chiffres significatifs", à savoir ceux que l'on DOIT afficher quand on fait des sciences de la nature ou de la technologie. Il faut dénoncer ces mauvais textes... et donner l'information juste.
 

Commençons par le mauvais texte, dont je donne d'abord la version originale, puis une traduction en français :
"Depending on the accuracy of the tools we employ in our research, each variable is measured within a certain degree of precision. For example, in most clinical studies on adults, age is measured in years. Generally, measuring the age with more accuracy in such studies is neither necessary nor of any particular importance. However, we might measure blood pH in the same study with two or even three digits after the decimal point because minute changes in blood pH are associated with serious clinical implications.
Statistical software programs commonly used in the analysis of research data, however, calculate the results with a predefined precision, say, three digits after the decimal point, no matter how accurately the raw data were measured. Therefore, the software would report the mean of both of the mentioned variables, age and pH, with three digits after the decimal point.
The question arises: how should we report these statistics in scientific articles? Apparently, there is no consensus on this issue. For example, some references suggest that in reporting statistics (eg, means and standard deviations [SDs]) not to use precisions higher than the accuracy of the measured data (1); many researchers recommend to use only one decimal place more than the precision used to measure the variable (2,3); and, some mention that although means should not be reported to no more than one decimal place more than that of the raw data, SDs may need to be reported with an extra decimal place (4)."

 
Et la traduction : 

 "Selon la précision des outils de mesure que nous employons dans nos recherches, chaque variable est mesurée avec une certaine précision. Par exemple, dans la plupart des études cliniques des adultes, l'âge est mesuré en années. Généralement, il n'est ni nécessaire ni important de donner plus de précisions. En revanche, dans les mêmes études, on peut mesurer le pH du sang avec deux ou même trois chiffres après la virgule, parce que de minimes changements du pH sanguin peuvent être associés à d'importants changements physiologiques. Les programmes de statistiques communément dans l'analyse scientifique calculent toutefois les résultats avec une précision prédéfinie, par exemple trois chiffres après la virgule, quels que soient les variables traitées. Aussi les logiciels afficheraient tant l'âge que le pH avec ces trois chiffres décimaux.
La question se pose : comment afficher ces données statistiques dans les articles scientifiques ? Apparemment, il n'y a pas de consensus à ce propos. Par exemple, certaines références proposent que, pour donner des informations statistiques (par exemple la moyenne et l'écart-type), on ne doit pas utiliser une précision plus grande que la précision des données mesurées  ; de nombreux chercheurs  recommandent de n'utiliser d'un chiffre décimal de plus que la précision des résultats ; et certains mentionnent que les moyennes doivent être affichées avec seulement une décimal de plus que les données brutes, alors que l'écart-type ne doit pas être affichés avec cette décimale supplémentaire".


 

Tout cela est faux !

1. tout d'abord, il n'est pas question de "variables", mais de grandeur

2. d'autre part, utiliser des logiciels tout faits est le signe  d'une médiocre pratique scientifique... car on ne maîtrise rien

3.  il n'est pas vrai qu'il n'y a pas de consensus : l'affichage des données est parfaitement codifié par le Bureau international des poids et mesures, qui a produit le "GUM"

4. on ne doit afficher que des "chiffres significatifs", et j'ai déjà souvent discuté la question

5. il ne s'agit pas d'aller voir qui fait quoi, idiosyncratiquement, quand on fait de la science, mais d'examiner les consensus

6. parler de "statistiques" pour évoquer des moyennes et des écarts-types, cela fait chic, mais pas bien nécessaire.

7. un pH avec trois décimales ? je doute vraiment du travail de nos auteurs, surtout quand les solutions considérées (le sang) contiennent des protéines !

 

Et je vous épargne la suite de l'article

 

Décidément, il y a des articles qui peuvent faire perdre beaucoup de temps à ceux qui ont le désir de faire de la bonne science !

dimanche 18 octobre 2020

A propos de chiffres significatifs

 1. Je trouve dans un texte sur la significativité des valeurs communiquées dans les articles cette phrase "It concerns me that numbers are often reported to excessive precision, because too many digits can swamp the reader, overcomplicate the story and obscure the message." Je traduis  : "Cela me gêne que les nombres soient souvent donnés avec une précision excessive, parce que trop de chiffres peuvent submerger le lecteur, compliquer inutilement le récit et obscurcis le message".

2. Notre auteur a raison de critiquer l'emploi de précisions excessives, mais les raisons qu'il donne sont mauvaises. La raison essentielle, la seule, au fond, c'est que les mesures sont connues avec une précision qui doit être déterminée par ceux qui communiquent les mesures, et les chiffres indiqués doivent être être "significatifs". Il ne s'agit pas d'en mettre plus ou moins, mais de donner exactement ce qu'il faut.

3. Un exemple : si l'on utilise une balance, alors le nombre de chiffres que l'on indique est soit déterminé par la précision de la balance, soit par l'écart-type des répétitions des mesures.

4. Un exemple dans l'exemple : supposons que la balance que nous utilisions soit de grande précision, disons 0,0001 g, et que trois pesée d'un objet soient égales, disons à 5,2341 g. On comprend facilement que l'on doit afficher ce 5,2341, et pas 5,23410000  : non seulement ces 0 ne peuvent être donnés par la balance, mais, de surcroît, la précision de nos mesures n'est au cent millionième de gramme ! Le dernier chiffre significatif nous donne la précision du résultat, et ce serait soit idiot, soit ignorant, soit malhonnête d'afficher le nombre avec ces quatre 0 intempestifs.

5. Supposons maintenant que des répétitions de la pesée d'un objet, donnent trois valeurs différentes, évidemment différentes de plus que 0,0001 g, soit parce que la pièce est balayée par le vent, soit que l'objet pesé n'ait pas été toujours placé exactement au centre du plateau, par exemple. Alors l'écart-type  des trois mesures serait supérieur à 0,0001 g, et c'est lui qui détermine le nombre de chiffres significatifs.

6. Et si l'on fait une longue série d'expériences, qui conduisent à la détermination d'une grandeur, alors il faut "propager les incertitudes d'étape en étape, du début de l'expérience jusqu'à la fin...

7. Et c'est là où je vois souvent des fautes (je dis bien "des fautes", et pas "des erreurs"), le plus souvent parce que nos amis sont un peu faibles mathématiquement, et qu'ils ont peur de ces objets mathématiques pourtant simples que sont les dérivées partielles, ou parce que les calculs d'incertitudes, souvent bien compliqués, les rebutent.

8. Mais, finalement, on comprend -j'espère- pourquoi l'auteur cité initialement était  dans l'erreur. Les sciences de la nature ne sont pas un "récit" (ou tout autre mot que l'on préférerait pour "story) comme les autres, et l'on n'a pas le droit de décider de le rendre clair ou pas. Les mesures sont ce qu'elles sont, les expériences sont ce qu'elles sont, et il n'y a pas lieu de simplifier ou de compliquer la lecture du compte rendu de ces dernières et de leurs résultats !

lundi 29 juillet 2019

De l'émerveillement partagé

Alors que je viens  de dénoncer des pratiques scientifiques minables, à savoir l'affichage de nombres avec un nombre de décimales excessif, j'analyse que cette pratique n'est pas grave pour un étudiant qui apprend, mais le devient pour des scientifiques confirmés.
Mais, surtout, je m'interroge en revoyant ce titre  : "De  l'émerveillement partagé", que j'utilisais largement naguère, et que j'ai réservé à une rubrique de mon site (https://sites.google.com/site/travauxdehervethis/Home/et-plus-encore/de-l-emerveillement-partage).
Dans le premier cas (la dénonciation), je me lamente,  mais dans l'autre cas, je me réjouis. Et mon esprit très positif ne se résout pas aux lamentations, de sorte que se pose la question du traitement de l'informatique négative, et sa transformation en information positive.

Partons donc de l'exemple cité plus haut, qui provient d'une publication d'épidémiologie nutritionnelle, laquelle prévoit un nombre de malade à l'unité près. Cela s'apparente la pratique culinaire risible qui était préconisée par le Guide culinaire, à savoir d'utiliser 0,32 grammes de sel. On se doute qu'il s'agissait alors moins de prendre 0,32 grammes de sel que de prendre trois fois moins qu'un gramme, par rapport à une recette où les autres ingrédients étaient plus abondants. Dans le cas culinaire, on a échappé de peu à un affichage de 0,33333...  grammes, car les auteurs ou l'éditeur ont  décidé d'arrondir, assez maladroitement toutefois.

Et j'entends mes auteurs se demander : comment donc indiquer la quantité de sel nécessaire ? Il y a plusieurs solutions possibles à commencer par celle qui aurait été de dire : "goûtez".
On aurait pu aussi dire qu'il fallait mettre un gramme pour trois fois plus d'ingrédients, de sorte que l'on aurait compris qu'il fallait mettre à peu près 3 fois moins que 1 gramme.

Mais revenons au cas de du travail d'épidémiologie nutritionnelle et demandons-nous comment en faire quelque chose de positif. D'une part cela peut-être un exemple amusant de ce qu'il ne faut pas faire,  que l'on peut montrer aux étudiants : au lieu de se lamenter, rions-en.
D'autre part, on peut aussi utiliser ce cas pour s'interroger positivement sur le nombre de chiffres significatif qu'il va faut afficher. Et là, la question devient très intéressante puisqu'il s'agit d'une vraie question scientifique. Car l'affichage des résultats, parfois après un long travail, et un résultat au premier ordre, qu'il faut savourer avant de passer au deuxième ordre, c'est-à-dire chercher la validité du résultat, sa précision, calculer les incertitudes...  Cela est un travail du  deuxième ordre... qui incite à poursuivre au troisième ordre. Qu'y voyez-vous ?

samedi 2 février 2019

Les bonnes pratiques : les chiffres significatifs

À propos de caractérisation quantitative des phénomènes, il y a lieu d'évoquer la question des chiffres significatifs.

En principe,  tout est simple : on comprend bien qu'avec une règle 20 m de long, il n'est pas possible de mesurer une distance de 3 centimètres, et l'on comprend aussi qu'avec une règle qui comporte des graduations tous les centimètres, on ne peut pas dire qu'un segment aurait une longueur de 4,44425 centimètres : les décimales sont indues.
Tout est dans cette idée,  mais le mauvais maniement des chiffres significatifs s'observe trop souvent dans les manuscrits qui sont soumis pour publication, voire qui sont publiés !
Pourquoi cela ? Parce que les auteurs sont insuffisamment attentifs ? Parce qu'ils affichent des résultats de division, sans prendre garde à l'apparition de décimales indues ? Parce qu'ils ignorent les règles - des conventions -internationales, notamment à propos de la "propagation des incertitudes" ? Je n'oserais évidemment pas évoquer le fait que  les capacités de calcul de certains puissent être insuffisantes... mais quand même, je m'interroge parfois.


Commençons par observer qu'il y a des  conventions internationales à propos de l'affichage des chiffres significatifs, et ces conventions sont quand même du bon sens, comme dans le premier exemple donné. Bien sûr, il  a aussi de la convention, comme utiliser une racine carrée de carrés ("distance euclidienne") plutôt qu'un somme de valeurs absolues ("distance de Manhattan") pour composer des incertitudes*, mais tout cela n'est guère difficile. 
Cela étant, je vois que certains sites officiels qui discutent ces questions (par exemple, http://www.chemistry.wustl.edu/~coursedev/Online%20tutorials/SigFigs.htm) sont bien insuffisants, car ils ne justifient ce qu'ils avancent par aucune référence (et pour celui-ci, il y a une confusion entre "nombre" et "chiffre" !). C'est d'ailleurs une critique que je me fais personnellement, dans ce blog, et je me promets de me corriger. En l'occurrence, le bon document est BIPM,  IEC,  IFCC,  ISO,  IUPAC,  OIML,  “Guide  to  the  expression  of  uncertainty  in   measurement”.   International   Organisation   for   Standardisation,   Geneva, Switzerland,  ISBN  92-67-10188-9,  First  Edition,  1993.

Commençons par les règles :
1. Les chiffres significatifs sont ceux qui doivent figurer dans l'expression d''une mesure ou d'une quantité calculée. Ils portent, en plus de leur valeur numérique, l'indication de la précision de la mesure exprimée.
2. Les chiffres différents de zéro sont significatifs
3. Tout zéro entre deux chiffres différents de zéro est significatif
4. Un zéro final ou des zéros successifs de la partie décimale sont significatifs
5. En cas de confusion, la notation scientifique s'impose. Par exemple, pour 4000, on hésite entre 1 et 4 chiffres significatifs. Mais si l'on écrit 4 103, alors un seul chiffre et significatif, alors que pour 4,000 103, il y a quatre chiffres significatifs.


Nous sommes bien d'accord qu'il y a là une question de convention, comme pour la composition des incertitudes, où l'on s'est résolu depuis quelques années à utiliser une formule particulière, commune pour tous,  décidée collectivement. Une convention, tout comme le port de la cravate dans certains milieux, ou le port de la casquette à l'envers dans d'autres, est une règle qu'il faut connaître et appliquer sous peine de ne pas être bien compris, bien admis dans la communauté.

 Au fond, tout cela est une question de communication : quelqu'un qui voudrait désigner un chien par le mot "chat" serait incompris.  Et il y a évidemment des relations avec l'honnêteté, car quelqu'un qui vendrait un chat pour un chien serait malhonnêtes.

Bref, dans toute cette affaire (je reviens aux chiffres significatifs), il y a une question de probité essentielle.
Bien sûr, il peut exister des étudiants qui ignorent la règle, mais alors ils sont comme des enfants qui ne savent pas parler. Bien sûr, il y a des cas qui sont moins caricaturaux que ceux que j'ai donnés en introduction. Par exemple, quand un instrument de mesure affiche  4 décimales, la question est alors de savoir si ces quatre décimales doivent être donnés, et comment indiquer sa (relative) imprécision : les conventions l'indiquent. Tous, nous devons donc maîtriser tout cela. Ce n'est pas difficile, il faut du bon sens... mais il suffit souvent d'y passer un peu de temps.