mercredi 27 mars 2024

Les droites de régression... et l’enseignement

Pour les apprenants en sciences (bien qu’on apprenne sans cesse), par exemple en licence, on enseigne l’usage des "droites de régression", et je vois qu’il y a lieu de s’interroger sur l’enseignement que nous donnons. 

 

Posons le problème. Soit une série de résultats de mesure, exprimés sous la forme de valeurs obtenues en fonction d'un paramètre de commande. Nous pouvons représenter cela par des points sur un diagramme, avec les résultats de mesure en ordonnées, et les valeurs du paramètre de commande en abscisses. 

Nous cherchons, par exemple, à savoir si les couples de valeurs (abscisse, ordonnée) sont alignés sur une droite. 

Classiquement les étudiants utilisent à cette fin un tableur,  qui calcule par miracle une droite de régression, la droite qui passe "le mieux par les points", et qui affiche éventuellement l’équation de la droite et l’indication "R2 = ". 

Les étudiants apprennent que ce R2, bien mystérieux, doit être supérieur à 0.99 pour que les données soient... bien alignées. Je trouve cette pratique désastreuse, parce que nous enseignons à nos étudiants à appuyer sur un bouton, et à obtenir un résultat sans comprendre ce qu’ils font (ou plutôt si : ils comprennent qu’il faut appuyer sur un bouton... mais ils ne comprennent pas ce que fait le programme de calcul). 

Je sais que certains de mes collègues prônent la division des étudiants en deux groupes : les "mécaniciens" et les "conducteurs de voiture", mais l’affichage de ce R2 est si élémentaire que cela me semble s’apparenter plutôt au fait de s’asseoir dans la voiture, et non pas de la conduire. 

Dans la vraie vie, dans la vie professionnelle, quand on doit commencer à faire de véritables droites de régression, il ne s’agit plus d’une sorte de travaux pratiques prémâchés, de sorte que les étudiants qui savent seulement s’asseoir dans la voiture sont bien désemparés, et c’est là que je les retrouve, en stage, et qu’ils me demandent de l’aide.

 

Qu’est-ce que cet étrange R2 ?

 

Il est si facile de l’expliquer que je trouve désolant que les étudiants ne le sachent pas : la droite que l’on cherche est une droite qui doit passer au mieux par les points. « Au mieux » étant une qualification, il nous faut immédiatement la transformer en quantité. Combien mieux ? 

Pour quantifier de combien la droite passe ou pas par les points, il semble naturel de calculer la distance entre chaque point et la droite, et la qualité totale de l’ajustement peut se faire par la minimisation de la somme de ces distances... à cela près que certaines peuvent être positives et d’autres négatives (des points respectivement au dessous ou au dessus de la droite trouvée) et qu’il y a un risque d’avoir une somme des distances qui soit nulle, par un tel calcul.
On pourrait très bien prendre la valeur absolue des distances et en faire la somme, mais on peut aussi prendre la racine carrée du carré des distances, ou, sans s’en faire, prendre le carré directement. 

Cela fait, la somme des carrés des distances n’est pas un bon indicateur, car imaginons que les points soient distants de 1 sur une droite qui passe par un point d’ordonnée 100 : ce n’est pas la même chose qu’une distance de 1 par rapport à une droite qui passe par une ordonnée 1, de sorte que l’on a intérêt à diviser les distances par la hauteur du point. 

Je ne fais pas ici le cours de statistiques, mais il y a un développement rapide et simple qui conduit ainsi à comprendre ce qu’est ce R2. 

 

A quoi bon calculer soi-même le R2 quand le tableur ou un autre programme (je maintiens que les tableurs ne sont pas des outils corrects, pour les ingénieurs et les techniciens) le fait ?

 Cela permet de s’entraîner à ne pas utiliser quelque chose qu’on ne comprend pas, comme on l’a vu, mais, surtout, il y a la question de la validation ! Quand nous utilisons un logiciel pour faire une régression et quand nous calculons ce R2, comment savoir que le résultat fourni est juste ? 

Bien sûr, on ne manquera pas d’afficher la droite de régression et de voir, à l’œil, qu’elle passe assez bien par les points. Toutefois cela ne sera pas une validation bien forte, et c’est là que je m’interroge : il est si facile de calculer soi même une droite de régression qu’on peut se demander s’il ne vaut pas mieux la calculer soi même, trouver une valeur qui sera ensuite validée par l’utilisation du logiciel. 

De même pour le R2, le calcul est si simple avec un logiciel qui comporte une partie de programmation, même élémentaire, que je ne comprends pourquoi nous éviterions de calculer nous-même le R2, ce qui aurait l’avantage supplémentaire d’avoir le résultat du calcul, d’avoir la validation, et de renforcer nos connaissances en les "révisant" en pratique. 

Finalement je vois à nouveau ici combien est utile cette manière remarquable qu’ont certains amis de prendre les questions à bras le corps, et de ne reposer la chose qu’une fois la compréhension parfaitement obtenue. 

Je n’arrive pas à penser que dans l’enseignement scientifique ou technologique, nous puissions aider de jeunes amis à se former sans les inviter à toujours bien comprendre ce qu’ils font. Même pour un simple "produit en croix", si c’est un procédé automatique, il y a des chances de se tromper... et l’expérience montre que nos amis se trompent, alors qu’il est si simple de poser le problème avec des mots en langage naturel et de le résoudre, en étant absolument certain de la solution que nous avons trouvée. 

Car voilà la vraie question : dans la vraie vie, dans la vie professionnelle, nous ne sommes plus des étudiants où l’erreur n’est sanctionnée que d’un point en moins sur une note sur 20. Nous avons une obligation de résultats, et c’est pourquoi la validation, insuffisamment montrée aux étudiants, s’impose absolument ; par voie de conséquence, s’imposent aussi des méthodes de travail bien différentes des travaux pratiques. 

Finalement je conclus que nous avons besoin de comprendre ce que nous faisons, de valider nos résultats, mais aussi de changer radicalement nos enseignements, et notamment la pratique des travaux pratiques. 

Il faut aussi dire à nos étudiants que le calcul est une chose simple et amusante, qui ne résulte pas de l’application mécanique de règles, mais de la compréhension des problèmes et de l’utilisation de la pensée et de la langue, raison pour laquelle la question principale de l’enseignement des sciences est sans doute l’utilisation d’une langue correcte, à la fois dans le vocabulaire et dans la grammaire. 

Pour la rhétorique et l’éloquence, c’est autre chose, dont nous parlerons une autre fois, car contrairement à ce que l’on pourrait croire, ce n’est pas du tout hors sujet dans enseignement scientifique ou technologique, puisqu’il y a des questions de communication à tous les instants du travail scientifique ou technologique, de la publication des résultats, aux conférences, en passant par des réunions, moments où nous communiquons avec des collègues, par exemple. Et puis, la pensée n’est-elle pas une communication avec soi-même ?

Aucun commentaire:

Enregistrer un commentaire

Un commentaire? N'hésitez pas!
Et si vous souhaitez une réponse, n'oubliez pas d'indiquer votre adresse de courriel !