Affichage des articles dont le libellé est données. Afficher tous les articles
Affichage des articles dont le libellé est données. Afficher tous les articles

jeudi 11 mars 2021

La représentation des données



Des amis en stage m'interrogent sur la représentation des données, puisqu'ils en sont à ce stade de leur travail de recherche. Doivent-ils faire des courbes ? des histogrammes ? quels textes faut-il porter sur les images ? de quelles couleurs ? dans quelle taille ?

La première réponse à faire, la plus importante, c'est celle de l'objectif : toujours commencer par l'objectif ! Que veut-on faire et pourquoi ?


Et, d'autre part, quand il est question de communication (à soi-même ou aux autres), je ne saurais trop conseiller de distinguer la composante intrinsèque de la question, de la question extrinsèque et des questions concomitantes.
J'explique en prenant une comparaison (utile par ailleurs) : l'intérêt intrinsèque d'une profession, c'est combien l'exercice de ce métier nous intéresse ; l'intérêt extrinsèque, c'est de savoir combien on va gagner ; et l'intérêt concomitant, c'est par exemple la reconnaissance sociale. A vous de transposer, maintenant, en revenant à la question des affichages de données ;-).

Ca y est ? Non ? Alors je vous invite à chercher d'abord pourquoi on affiche des données. Et cela nous impose de nous remettre dans le fil de la recherche scientifique : cette recherche consiste à suivre des étapes qui sont :
1. identifier un phénomène
2. le caractériser quantitativement
3. réunir les données en "lois", c'est-à-dire en équations
4. induire une théorie, quantitativement compatibles avec les lois, et en introduisant des concepts nouveaux
5. chercher des conséquences logiques, testables, de la théorie
6. tester expérimentalement ces prévisions théoriques.

Ici, nous en sommes au point (3), à savoir que nous avons des données, et nous voulons des équations.

Et c'est un fait que, de surcroît, on se repère très difficilement dans d'immenses tableaux de nombres (les résultats des mesures de caractérisations quantitatives).

Autrement dit, ce que l'on voudrait, avec cet affichage, c'est avoir une idée de la formes des équations : proportionnalité, augmentation exponentielle, que sais-je.

Et évidemment, pour cette recherche,  il y a  lieu de faire des représentations les plus simples possibles.
Notamment des représentations dans un espace à deux dimensions (ce qui est une "coupe" d'un espace qui aurait possiblement plus de dimensions).

Par exemple, considérons  une série de spectres d'absorption UV-visible : là, les données sont des courbes... et s'il a plusieurs courbes, on peut les superposer,  et regarder l'ordonnée des diverses courbes  a une valeur particulière de l'abscisse (une longueur d'onde particulière, choisie pour de vraies raisons scientifiques).
On peut aussi -mais c'est plus compliqué- dessiner une sorte de paysages, avec toutes les courbes, car si ces courbes s'ordonnent, pourquoi ne pas les faire apparaître comme des coupes de l'espace ?
Après tout, les deux dimensions de l'espace des courbes, plus une dimension pour la succession des courbes, cela fait trois dimensions, n'est-ce pas ?

Ou encore,  imaginons que l'on ait des données colorimétriques, par exemple dans un espace nommé L*a*b*. Pour cette mesure, on a des triplets de points, c'est-à-dire en réalité des points dans un espace à trois dimensions. Si l'on a plusieurs mesures, on aura plusieurs points dans cet espace. Comment représenter s'il y a un ordre pour les points ? Car ici, il faudrait un espace à quatre dimensions ? Une couleur peut être ajoutée, par exemple.

Et ainsi de suite  : ce que l'on cherche à ce stade,  ce n'est pas d'épater la galerie, de faire du "beau", de l'extrinsèque, mais de l'intrinsèque, de l'efficace du point de vue de la production scientifique.

C'est seulement plus tard, quand le travail scientifique aura été fait, que l'on pourra se préoccuper de produire de belles représentations. Là, tel le génial mathématicien Carl Friedrich Gauss, on pourra effacer les traces de ses propres hésitations, et   afficher  un travail d'orfèvre, superbe, ciselé... mais cela ne doit venir que quand le contenu aura été parfaitement déterminé :  on ne peut pas mettre des habits mêmes superbes sur un corps inexistant.

 

D'abord le message, le contenu, avant sa forme.

PS. Connaissez vous le livre The quantitative display of scientific information ? 

samedi 31 mars 2018

Jamais de mesures sans estimation des incertitudes

Ce matin, je reçois une revue qui milite pour une filière alimentaire, et, notamment, intervient dans un débat public à propos d'un de ses produits. On comprend que, dans une telle circonstance, les arguments doivent être particulièrement forts.

Or voici le genre de schémas qui figurent dans un article, où un scientifique est invité à venir à l'appui de la profession qui se défend  :

 


C'est contre productif... parce que les données ne sont assorties d'aucune intertitude, mesurée ou estimée.
Expliquons.

Quand on donne une valeur, on s'expose évidemment à ce que nos interlocuteurs, s'ils n'ont pas un pois chiche à la place du cerveau, commencent par s'interroger sur la validité de la valeur, avant d'en chercher la signification. La question est la même qu'à propos de la "couleur d'un carré rond", discutée dans un autre billet : ne cherchons pas à caractériser ce qui n'existe pas !
En l'occurrence, les mesures ont été... mesurées, et c'est l'instrument de mesure qui détermine leur précision. Oui, précision, car le plus souvent, et surtout dans des débats tels que celui que j'évoque, il y a une estimation, et non pas une valeur exacte. Par exemple, dans l'article évoqué, il est question du nombre de fractures évitées : cela ne se mesure pas, mais s'estime seulement. Pour d'autres cas, on peut avoir des mesures, telle la mesure d'une masse, à l'aide d'une balance nécessairement imprécise. Ou bien des estimations à partir de déterminations sur des échantillons.

 Bref, la science veut que tout nombre soit assorti d'une estimation de l'incertitudes, soit que cette estimation soit égale à l'incertitude de l'instrument de mesure, soit qu'elle soit déterminée par la répétition de plusieurs mesures.

Evidemment, quand on communique les résultats des mesures, il y a lieu de donner ces estimations des incertitudes, sans quoi, d'ailleurs, il y a mensonge : on laisse penser que la précision est celle que l'on affiche. Et, d'ailleurs, c'est une bonne pratique que celle des chiffres, et que j'invite mes amis à découvrir sans tarder s'ils ont quelques doutes à leur propos.
Sur un diagramme, les points doivent avoir une taille égale à l'incertitude. Sur un histogramme, on doit faire figurer  des valeurs hautes ou basses. Et ainsi de suite.

Sans quoi, nous sommes en position de considérer sur les données fournies ne valent rien : imaginez qu'elles aient été obtenues par un incapable !

samedi 29 juillet 2017

Bonne pratique : la conservation des données

J'ai déjà évoqué la question de la conservation des données, mais j'y reviens, parce que trouve le livre Responsible Science (vol 1, 1992), de l'Académie américaine des sciences. Voici ce que j'y lis (je traduis) : 

De nombreux laboratoires gardent habituellement les données primaires pendant une période déterminée (3 à 5 ans) après qu'elles ont été obtenues. Les données qui sont à l'appui des publications sont généralement conservées pendant une période plus longue que celles qui ont déjà fait l'objet  de résultats rapportés. Certains laboratoires de recherche considèrent qu'ils sont propriétaires des données et des cahiers de laboratoires. D'autres considèrent que c'est la responsabilité des individus qui ont obtenu les résultats d'en assurer la conservation, qu'ils soient ou non dans le laboratoire où ils ont obtenu les données.

Cette idée est générale, et pas propre à la science faite aux Etats-Unis : c'est une bonne pratique de conserver les résultats de recherche (échantillons, spectres, cahiers de laboratoire) pendant une période "raisonnable", tout comme c'est une bonne pratique de bien conserver des traces de tous les travaux effectués, surtout pour les résultats publiés ou qui sont la base d'autres travaux.
Evidemment, il faut exercer son jugement : il n'est pas utile de conserver des échantillons qui se dégradent, par exemple, et ce n'est pas le peine se conserver des produits qui seront jetés par nos successeurs ! Inversement, je peux témoigner d'avoir eu en main des échantillons de composés préparés par Louis Pasteur ou son élève Jungfleisch, et ils étaient très intéressants... car un siècle après, on a pu voir des témoins historiques. Certes, c'est un peu du fétichisme, mais ne conserve-t-on pas les cathédrales, ou la Tour Eiffel ? Ou des incunables ?


Dépassons les sentiments, et considérons surtout l'avancée des sciences. Nous devons pouvoir justifier que les résultats que nous pensons avoir obtenus (je parle aussi bien des résultats que des interprétations) sont tels que nous le disons. A qui présenter cette justification ? A nous-mêmes, tout d'abord, puis à des rapporteurs, d'article, de thèse, par exemple, Non pas que l'on nous croie pas, mais surtout parce qu'il peut y avoir des interprétations différentes d'un même résultat. Et c'est ce qui peut pousser à reprendre des échantillons pour les réanalyser.
D'ailleurs, il arrive que nous ayons envie de ré-analyser des échantillons que nous avons conservés, parce que nous pouvons y voir ultérieurement autre chose que ce que nous avions vu initialement, à l'aide d'idées théoriques préliminaires.

Bref, il ne faut pas être trop rapides dans les "rangements", et c'est un "postulat, pour notre groupe de recherche, que de garder tous les échantillons. Tous !

mercredi 26 juillet 2017

Les bonnes pratiques en science : l'accès aux données

Il est amusant de voir comment la même idée peut facilement verser du côté sombre ou du côté clair. Et l'évocation de ces deux côtés doit faire  immanquablement penser à l'opposition  éternelle que décrivait déjà François Rabelais, entre la jovialité et le pisse vinaigre, ou encore Jorge Luis Borges, entre l'envie blanche (qui construit) et l'envie noire (qui détruit ce que l'on n'a pas). On devine  évidemment de quel côté je me range !

Ces réflexions me viennent alors que je relis {Responsible Science}, vol 1, 1992, publié par l'académie américaine des sciences. Le texte est tout lassant de moralisation : il faut faire de la science raisonnable, il ne faut pas, il ne faut pas, il ne faut pas...
Ces gens croient-ils que l'on suscite ainsi beaucoup d'enthousiasme ? beaucoup d'envie de bien faire ?
Par exemple,  je lis :   

Refusing to give peers reasonable access to unique research materials or data that support published papers;

Il s'agit là de dénoncer une mauvaise pratique. Dénoncer, mauvaise... Si l'on proposait plutôt de faire de la science merveilleuse, cela ne serait-il pas plus attrayant ? Je maintiens que l'on fera alors mieux. Pourquoi ne transformons-nous pas aussitôt le paragraphe précédent en :

C'est une bonne pratique que de proposer à tous (notamment les pairs) un accès très large aux échantillons ou aux données qui soutiennent les articles publiés : n'ayant rien à cacher, puisque nous œuvrons avec honnêteté et passion, nous qui avons été aidés par nos prédécesseurs pouvons contribuer à l'avancement des sciences en proposant à nos amis de prolonger nos propres travaux.

Cela n'est-il pas plus "lumineux" ? Michael Faraday était un être merveilleux, comme le prouve son "la science rend aimable". Suivons Faraday !

mardi 4 juillet 2017

La sauvegarde des données

Une anecdote pour commencer : il y a plusieurs années, j'avais un ordinateur... dont je faisais mollement les sauvegardes. Il est arrivé, un jour, qu'il est tombé en panne, et que les données ont été perdues... sur quinze jours ! Vous vous rendez compte : deux semaines de travail perdues ! J'étais atterré... mais je sais aussi que l'expérience est intransmissible.
Puis, j'ai eu des disques durs de sauvagegardes, et j'ai fait des sauvegardes quotidiennes. Or il est arrivé -je le jure- que j'ai eu plusieurs fois des disques durs en panne, puis, pire, que j'ai eu un jour une panne à la fois d'un ordinateur et d'un disque dur. Pour cet événement, cela n'a pas été très grave... car, par hasard, j'avais une sauvegarde sur un second disque dur externe... et je n'ai perdu qu'une journée de travail. Mais quand même, pour quelqu'un qui travaille sans relâche, une journée de travail perdu, c'est rageant.
Pis encore : il est arrivé que j'ai eu un jour un ordinateur qui me lâchait, en même temps que deux disques durs externes ! Ce joura-là, je suis tombé des nues... mais j'avais trois sauvegardes, et je n'ai perdu qu'une heure, parce que la panne s'est produite en début de journée (j'avais sauvegardé la veille, au soir).

Depuis ce temps, j'ai personnellement plus de trois sauvegardes, en plus de mon disque dur, et je synchronise mes données à des moments différents pour les différents disques durs, pour des raisons qui sont exposées abondamment sur internet.

 Mais passons à d'autres que moi.
1. Peut-on se contenter d'avoir des sauvegardes sur un dropbox ou sur le cloud ? Professionnellement, cela n'est admissible que si le serveur reconnaît la propriété des données à celui qui stocke, et non à celui qui héberge. Et, bien sûr, si l'on a plusieurs stockages différents, car on peut imaginer une panne du serveur, et la perte des données ainsi stockées.
2. Evidemment, on doit  avoir des mise à jour soit en permanence, soit à des intervalles si courts que la perte serait sans trop de gravité (mais quand même, une heure perdue d'idées intéressantes, c'est déjà beaucoup.
3. On notera que l'on peut faire une différence entre sauvegarder et synchroniser, le second étant plus rapide, surtout quand on a un volume de données important, comme n'importe quel professionnel.

Bref, combien de sauvegardes avez vous ?