Dans une revue scientifique "reculée", je trouve un article qui dit des choses fausses à propos des "chiffres significatifs", à savoir ceux que l'on DOIT afficher quand on fait des sciences de la nature ou de la technologie. Il faut dénoncer ces mauvais textes... et donner l'information juste.
Commençons par le mauvais texte, dont je donne d'abord la version originale, puis une traduction en français :
"Depending on the accuracy of the tools we employ in our research, each variable is measured within a certain degree of precision. For example, in most clinical studies on adults, age is measured in years. Generally, measuring the age with more accuracy in such studies is neither necessary nor of any particular importance. However, we might measure blood pH in the same study with two or even three digits after the decimal point because minute changes in blood pH are associated with serious clinical implications.
Statistical software programs commonly used in the analysis of research data, however, calculate the results with a predefined precision, say, three digits after the decimal point, no matter how accurately the raw data were measured. Therefore, the software would report the mean of both of the mentioned variables, age and pH, with three digits after the decimal point.
The question arises: how should we report these statistics in scientific articles? Apparently, there is no consensus on this issue. For example, some references suggest that in reporting statistics (eg, means and standard deviations [SDs]) not to use precisions higher than the accuracy of the measured data (1); many researchers recommend to use only one decimal place more than the precision used to measure the variable (2,3); and, some mention that although means should not be reported to no more than one decimal place more than that of the raw data, SDs may need to be reported with an extra decimal place (4)."
Et la traduction :
"Selon la précision des outils de mesure que nous employons dans nos recherches, chaque variable est mesurée avec une certaine précision. Par exemple, dans la plupart des études cliniques des adultes, l'âge est mesuré en années. Généralement, il n'est ni nécessaire ni important de donner plus de précisions. En revanche, dans les mêmes études, on peut mesurer le pH du sang avec deux ou même trois chiffres après la virgule, parce que de minimes changements du pH sanguin peuvent être associés à d'importants changements physiologiques. Les programmes de statistiques communément dans l'analyse scientifique calculent toutefois les résultats avec une précision prédéfinie, par exemple trois chiffres après la virgule, quels que soient les variables traitées. Aussi les logiciels afficheraient tant l'âge que le pH avec ces trois chiffres décimaux.
La question se pose : comment afficher ces données statistiques dans les articles scientifiques ? Apparemment, il n'y a pas de consensus à ce propos. Par exemple, certaines références proposent que, pour donner des informations statistiques (par exemple la moyenne et l'écart-type), on ne doit pas utiliser une précision plus grande que la précision des données mesurées ; de nombreux chercheurs recommandent de n'utiliser d'un chiffre décimal de plus que la précision des résultats ; et certains mentionnent que les moyennes doivent être affichées avec seulement une décimal de plus que les données brutes, alors que l'écart-type ne doit pas être affichés avec cette décimale supplémentaire".
Tout cela est faux !
1. tout d'abord, il n'est pas question de "variables", mais de grandeur
2. d'autre part, utiliser des logiciels tout faits est le signe d'une médiocre pratique scientifique... car on ne maîtrise rien
3. il n'est pas vrai qu'il n'y a pas de consensus : l'affichage des données est parfaitement codifié par le Bureau international des poids et mesures, qui a produit le "GUM"
4. on ne doit afficher que des "chiffres significatifs", et j'ai déjà souvent discuté la question
5. il ne s'agit pas d'aller voir qui fait quoi, idiosyncratiquement, quand on fait de la science, mais d'examiner les consensus
6. parler de "statistiques" pour évoquer des moyennes et des écarts-types, cela fait chic, mais pas bien nécessaire.
7. un pH avec trois décimales ? je doute vraiment du travail de nos auteurs, surtout quand les solutions considérées (le sang) contiennent des protéines !
Et je vous épargne la suite de l'article
Décidément, il y a des articles qui peuvent faire perdre beaucoup de temps à ceux qui ont le désir de faire de la bonne science !