jeudi 11 mars 2021

La représentation des données



Des amis en stage m'interrogent sur la représentation des données, puisqu'ils en sont à ce stade de leur travail de recherche. Doivent-ils faire des courbes ? des histogrammes ? quels textes faut-il porter sur les images ? de quelles couleurs ? dans quelle taille ?

La première réponse à faire, la plus importante, c'est celle de l'objectif : toujours commencer par l'objectif ! Que veut-on faire et pourquoi ?


Et, d'autre part, quand il est question de communication (à soi-même ou aux autres), je ne saurais trop conseiller de distinguer la composante intrinsèque de la question, de la question extrinsèque et des questions concomitantes.
J'explique en prenant une comparaison (utile par ailleurs) : l'intérêt intrinsèque d'une profession, c'est combien l'exercice de ce métier nous intéresse ; l'intérêt extrinsèque, c'est de savoir combien on va gagner ; et l'intérêt concomitant, c'est par exemple la reconnaissance sociale. A vous de transposer, maintenant, en revenant à la question des affichages de données ;-).

Ca y est ? Non ? Alors je vous invite à chercher d'abord pourquoi on affiche des données. Et cela nous impose de nous remettre dans le fil de la recherche scientifique : cette recherche consiste à suivre des étapes qui sont :
1. identifier un phénomène
2. le caractériser quantitativement
3. réunir les données en "lois", c'est-à-dire en équations
4. induire une théorie, quantitativement compatibles avec les lois, et en introduisant des concepts nouveaux
5. chercher des conséquences logiques, testables, de la théorie
6. tester expérimentalement ces prévisions théoriques.

Ici, nous en sommes au point (3), à savoir que nous avons des données, et nous voulons des équations.

Et c'est un fait que, de surcroît, on se repère très difficilement dans d'immenses tableaux de nombres (les résultats des mesures de caractérisations quantitatives).

Autrement dit, ce que l'on voudrait, avec cet affichage, c'est avoir une idée de la formes des équations : proportionnalité, augmentation exponentielle, que sais-je.

Et évidemment, pour cette recherche,  il y a  lieu de faire des représentations les plus simples possibles.
Notamment des représentations dans un espace à deux dimensions (ce qui est une "coupe" d'un espace qui aurait possiblement plus de dimensions).

Par exemple, considérons  une série de spectres d'absorption UV-visible : là, les données sont des courbes... et s'il a plusieurs courbes, on peut les superposer,  et regarder l'ordonnée des diverses courbes  a une valeur particulière de l'abscisse (une longueur d'onde particulière, choisie pour de vraies raisons scientifiques).
On peut aussi -mais c'est plus compliqué- dessiner une sorte de paysages, avec toutes les courbes, car si ces courbes s'ordonnent, pourquoi ne pas les faire apparaître comme des coupes de l'espace ?
Après tout, les deux dimensions de l'espace des courbes, plus une dimension pour la succession des courbes, cela fait trois dimensions, n'est-ce pas ?

Ou encore,  imaginons que l'on ait des données colorimétriques, par exemple dans un espace nommé L*a*b*. Pour cette mesure, on a des triplets de points, c'est-à-dire en réalité des points dans un espace à trois dimensions. Si l'on a plusieurs mesures, on aura plusieurs points dans cet espace. Comment représenter s'il y a un ordre pour les points ? Car ici, il faudrait un espace à quatre dimensions ? Une couleur peut être ajoutée, par exemple.

Et ainsi de suite  : ce que l'on cherche à ce stade,  ce n'est pas d'épater la galerie, de faire du "beau", de l'extrinsèque, mais de l'intrinsèque, de l'efficace du point de vue de la production scientifique.

C'est seulement plus tard, quand le travail scientifique aura été fait, que l'on pourra se préoccuper de produire de belles représentations. Là, tel le génial mathématicien Carl Friedrich Gauss, on pourra effacer les traces de ses propres hésitations, et   afficher  un travail d'orfèvre, superbe, ciselé... mais cela ne doit venir que quand le contenu aura été parfaitement déterminé :  on ne peut pas mettre des habits mêmes superbes sur un corps inexistant.

 

D'abord le message, le contenu, avant sa forme.

PS. Connaissez vous le livre The quantitative display of scientific information ? 

Aucun commentaire:

Publier un commentaire

Un commentaire? N'hésitez pas!
Et si vous souhaitez une réponse, n'oubliez pas d'indiquer votre adresse de courriel !