mercredi 17 juillet 2024

A propos de données ouvertes

Données ouvertes ? L'expression fait lentement son chemin, parmi une communauté qui ne comprend pas toujours bien ce dont il s'agit, et notamment parce que les "explications" sont truffées d'anglicismes, d'acronymes, et pas toujours bien faites, comme si celles et ceux qui promeuvent ce mouvement voulaient en réalité ne rien ouvrir du tout, mais un peu confisquer leurs avancées dans ce champ. 


Personnellement j'aurais dû depuis longtemps évoquer le mouvement des données ouvertes si j'avais mieux compris leur intérêt. 

En réalité j'ai basculé quand j'ai eu l'occasion de lire, dans un texte qui évoquait ce mouvement à l'université d'Oxford, cette phrase  : pourquoi laisser des spectres dormir sur des disques durs ? 

Renseignements pris, du temps passé à décoder ce qui a été publié à ce propos, le mouvement des données ouvertes consiste à contribuer aux progrès scientifiques comme on y contribue en publiant des articles scientifiques classiques. 

Normalement, quand on soumet une note de recherche, on doit indiquer les matériels et  les méthodes qui ont été mis en oeuvre, ainsi que les résultats que l'on discute. Mais depuis plusieurs années, je déplorerais que les données n'apparaissent pas bien et que seuls des résultats figurent.
De même, dans les thèses, au moins pour les époques récentes, les données me manquaient et pour moi qui revendique toujours de juger des travaux scientifiques à partir de sections de "Matériels et méthodes" précis, la publication des jeux de données dans des articles de données me paraît une évidence absolue. 

Ayant mieux compris comment expliquer l'intérêt de la chose, je le fais maintenant. Et je le fais aussi parce que j'ai également que il ne s'agit pas de publier des données de façon anonyme, mais de les publier tout comme on le ferait pour un article scientifique, avec une référence attachée à ce jeu de données qui pourra être cité : il n'y a pas de perte de paternité dans cette affaire mais bien plutôt la possibilité de prolonger les publications, de les faire dans des conditions où elle serait toujours être du faites. 

 

Pour expliquer la chose simplement, il y a maintenant  : 

1. des "entrepôts de données" où l'on peut donc déposer des données d'une façon réutilisable, avec un lien vers ce jeu de données, qui constitue  une reconnaissance de paternité du travail. 

2. puis il y a des "articles de données", qui sont cette fois des articles qui indiquent les circonstances de la production de ces données : qui expliquent le contexte, les questions étudiées, qui insistent sur les méthodes et les matériels employés, et qui décrivent en détail les jeux de données. 

3. et puis il y a les articles classiques, qui  pourront maintenant être débarrassés de leur "matériels supplémentaires" puisque ces derniers seront des articles de données. 

Apparaît donc un triptyque entrepôts de données / revues publiant des articles de données / revues publiant des articles scientifiques complets, avec les résultats et les discussions.
 

Ayant combien compris tout cela je vais militer sans tarder, auprès des revues scientifiques auxquelles je contribue, pour qu'elles publient des articles de données à côté de notes de recherche plus classique. Ces articles de données renverront vers des jeux de données ce qui signifie que nous contribuerons au progrès scientifiques, technologique et technique. 

Aucun commentaire:

Enregistrer un commentaire

Un commentaire? N'hésitez pas!
Et si vous souhaitez une réponse, n'oubliez pas d'indiquer votre adresse de courriel !