Affichage des articles dont le libellé est affichage. Afficher tous les articles
Affichage des articles dont le libellé est affichage. Afficher tous les articles

jeudi 11 mars 2021

La représentation des données



Des amis en stage m'interrogent sur la représentation des données, puisqu'ils en sont à ce stade de leur travail de recherche. Doivent-ils faire des courbes ? des histogrammes ? quels textes faut-il porter sur les images ? de quelles couleurs ? dans quelle taille ?

La première réponse à faire, la plus importante, c'est celle de l'objectif : toujours commencer par l'objectif ! Que veut-on faire et pourquoi ?


Et, d'autre part, quand il est question de communication (à soi-même ou aux autres), je ne saurais trop conseiller de distinguer la composante intrinsèque de la question, de la question extrinsèque et des questions concomitantes.
J'explique en prenant une comparaison (utile par ailleurs) : l'intérêt intrinsèque d'une profession, c'est combien l'exercice de ce métier nous intéresse ; l'intérêt extrinsèque, c'est de savoir combien on va gagner ; et l'intérêt concomitant, c'est par exemple la reconnaissance sociale. A vous de transposer, maintenant, en revenant à la question des affichages de données ;-).

Ca y est ? Non ? Alors je vous invite à chercher d'abord pourquoi on affiche des données. Et cela nous impose de nous remettre dans le fil de la recherche scientifique : cette recherche consiste à suivre des étapes qui sont :
1. identifier un phénomène
2. le caractériser quantitativement
3. réunir les données en "lois", c'est-à-dire en équations
4. induire une théorie, quantitativement compatibles avec les lois, et en introduisant des concepts nouveaux
5. chercher des conséquences logiques, testables, de la théorie
6. tester expérimentalement ces prévisions théoriques.

Ici, nous en sommes au point (3), à savoir que nous avons des données, et nous voulons des équations.

Et c'est un fait que, de surcroît, on se repère très difficilement dans d'immenses tableaux de nombres (les résultats des mesures de caractérisations quantitatives).

Autrement dit, ce que l'on voudrait, avec cet affichage, c'est avoir une idée de la formes des équations : proportionnalité, augmentation exponentielle, que sais-je.

Et évidemment, pour cette recherche,  il y a  lieu de faire des représentations les plus simples possibles.
Notamment des représentations dans un espace à deux dimensions (ce qui est une "coupe" d'un espace qui aurait possiblement plus de dimensions).

Par exemple, considérons  une série de spectres d'absorption UV-visible : là, les données sont des courbes... et s'il a plusieurs courbes, on peut les superposer,  et regarder l'ordonnée des diverses courbes  a une valeur particulière de l'abscisse (une longueur d'onde particulière, choisie pour de vraies raisons scientifiques).
On peut aussi -mais c'est plus compliqué- dessiner une sorte de paysages, avec toutes les courbes, car si ces courbes s'ordonnent, pourquoi ne pas les faire apparaître comme des coupes de l'espace ?
Après tout, les deux dimensions de l'espace des courbes, plus une dimension pour la succession des courbes, cela fait trois dimensions, n'est-ce pas ?

Ou encore,  imaginons que l'on ait des données colorimétriques, par exemple dans un espace nommé L*a*b*. Pour cette mesure, on a des triplets de points, c'est-à-dire en réalité des points dans un espace à trois dimensions. Si l'on a plusieurs mesures, on aura plusieurs points dans cet espace. Comment représenter s'il y a un ordre pour les points ? Car ici, il faudrait un espace à quatre dimensions ? Une couleur peut être ajoutée, par exemple.

Et ainsi de suite  : ce que l'on cherche à ce stade,  ce n'est pas d'épater la galerie, de faire du "beau", de l'extrinsèque, mais de l'intrinsèque, de l'efficace du point de vue de la production scientifique.

C'est seulement plus tard, quand le travail scientifique aura été fait, que l'on pourra se préoccuper de produire de belles représentations. Là, tel le génial mathématicien Carl Friedrich Gauss, on pourra effacer les traces de ses propres hésitations, et   afficher  un travail d'orfèvre, superbe, ciselé... mais cela ne doit venir que quand le contenu aura été parfaitement déterminé :  on ne peut pas mettre des habits mêmes superbes sur un corps inexistant.

 

D'abord le message, le contenu, avant sa forme.

PS. Connaissez vous le livre The quantitative display of scientific information ? 

lundi 29 juillet 2019

De l'émerveillement partagé

Alors que je viens  de dénoncer des pratiques scientifiques minables, à savoir l'affichage de nombres avec un nombre de décimales excessif, j'analyse que cette pratique n'est pas grave pour un étudiant qui apprend, mais le devient pour des scientifiques confirmés.
Mais, surtout, je m'interroge en revoyant ce titre  : "De  l'émerveillement partagé", que j'utilisais largement naguère, et que j'ai réservé à une rubrique de mon site (https://sites.google.com/site/travauxdehervethis/Home/et-plus-encore/de-l-emerveillement-partage).
Dans le premier cas (la dénonciation), je me lamente,  mais dans l'autre cas, je me réjouis. Et mon esprit très positif ne se résout pas aux lamentations, de sorte que se pose la question du traitement de l'informatique négative, et sa transformation en information positive.

Partons donc de l'exemple cité plus haut, qui provient d'une publication d'épidémiologie nutritionnelle, laquelle prévoit un nombre de malade à l'unité près. Cela s'apparente la pratique culinaire risible qui était préconisée par le Guide culinaire, à savoir d'utiliser 0,32 grammes de sel. On se doute qu'il s'agissait alors moins de prendre 0,32 grammes de sel que de prendre trois fois moins qu'un gramme, par rapport à une recette où les autres ingrédients étaient plus abondants. Dans le cas culinaire, on a échappé de peu à un affichage de 0,33333...  grammes, car les auteurs ou l'éditeur ont  décidé d'arrondir, assez maladroitement toutefois.

Et j'entends mes auteurs se demander : comment donc indiquer la quantité de sel nécessaire ? Il y a plusieurs solutions possibles à commencer par celle qui aurait été de dire : "goûtez".
On aurait pu aussi dire qu'il fallait mettre un gramme pour trois fois plus d'ingrédients, de sorte que l'on aurait compris qu'il fallait mettre à peu près 3 fois moins que 1 gramme.

Mais revenons au cas de du travail d'épidémiologie nutritionnelle et demandons-nous comment en faire quelque chose de positif. D'une part cela peut-être un exemple amusant de ce qu'il ne faut pas faire,  que l'on peut montrer aux étudiants : au lieu de se lamenter, rions-en.
D'autre part, on peut aussi utiliser ce cas pour s'interroger positivement sur le nombre de chiffres significatif qu'il va faut afficher. Et là, la question devient très intéressante puisqu'il s'agit d'une vraie question scientifique. Car l'affichage des résultats, parfois après un long travail, et un résultat au premier ordre, qu'il faut savourer avant de passer au deuxième ordre, c'est-à-dire chercher la validité du résultat, sa précision, calculer les incertitudes...  Cela est un travail du  deuxième ordre... qui incite à poursuivre au troisième ordre. Qu'y voyez-vous ?