science/études/cuisine/politique/Alsace/gratitude/émerveillement
1. Dans les débats publics, dans la presse, on entend souvent le mot "corrélation"... mais sait-on bien de quoi il s'agit ? Et, surtout, en sait-on les limites ?
2. Ici, je veux signaler l'existence d'un excellent article, certes un peu ancien, mais dont les justes conclusions sont quasi intemporelles. Et ceux qui utilisent le mot "corrélation" devraient bien le lire, pour éviter de dire des âneries.
3. D'abord les références de ce texte : Anscombe FJ. 1973. Graphs in statistical analysis, The American Stastitician, vol. 27, N°1, pp 17-21.
L'article discute d'abord de l'importance des graphes... à une époque il n'était pas aussi facile d'en faire qu'aujourd'hui, raison pour laquelle son texte est un peu apologétique, de ce point de vue.
4. Mais, rapidement, notre homme discute la question des "régressions", ces analyses que des étudiants qui débutent dans les sciences et les technologies apprennent rapidement à faire, notamment avec ce mauvais logiciel qu'est Excel.
5. De quoi s'agit-il ? D'analyser une série de données : pensons, par exemple, à la quantité de sucres dans un bouillon de carottes, en fonction du temps de cuisson. On obtient une telle série de données en faisant des bouillons de carotte, et en dosant les sucres à des temps de cuisson différents, et en analysant ces échantillons, afin de savoir combien ils renferment de sucre.
6. Ayant fait les analyses, on "contemple" les résultats, qui s'affichent d'abord sous la forme d'un tableau de nombres tel que :
7. C'est immangeable ! La première chose à faire, pour se parler à soi-même et parler aux autres, du résultat obtenu, consiste à représenter ces couples de données, sur un graphe. Les temps de mesure sont sur l'horizontale du bas, et les mesures des quantités de sucres sont sur la verticale de gauche ; à l'intersection de la verticale qui part du temps 5 (en bas), par exemple, et de l'horizontale qui part de la quantité 5,5 (à gauche), on met un point qui correspond à la mesure (temps =5, quantité = 5,5).
Et l'on fait ainsi pour tous les points. De sorte que l'on obtient un graphe fait des onze points de mesure.
8. Mais on voit bien, sur ce graphe, que plus le temps de cuisson augmente, et plus la quantité semble augmenter aussi. Et c'est là que les étudiants apprennent à tracer une "droite de régression", qui est la droite qui passe "le mieux" par les différents de mesure. Je passe sur le calcul simple qui permet de faire cette droite, pour me limiter à dire que beaucoup de ceux qui en font se contentent d'indiquer la "qualité de la régression" (de combien la droite passe bien ou mal par les points) à l'aide nombre qui est désigné par R2. Pour R2 égal à 1, les points sont parfaitement alignés sur la droite. Sur la figure 2, je montre une droite de régression et onze points, avec un R2 qui est égal à 0,667.
9. Là où il faut faire attention, c'est que pour la figure 3, le R2 est encore égal à 0,667 !
10. Tout comme la figure 4.
11. Tout comme pour la figure 5 !
12. On le voit, le R2 qui tous les débutants apprennent est bien insuffisant. Bien sûr, il faut commencer un jour, mais ne nous contentons pas de ce début. Avançons
Aucun commentaire:
Enregistrer un commentaire
Un commentaire? N'hésitez pas!
Et si vous souhaitez une réponse, n'oubliez pas d'indiquer votre adresse de courriel !