Perspectives d’expérimentation

SELF Diagnostic

Nous souhaitons engager la conception de modules diagnostiques pour SELF, qui permettront à l'étudiant d'obtenir des feedbacks plus précis sur ses acquis et ses difficultés. L'objectif est de doter le dispositif d’évaluation formative SELF de modules diagnostiques, chacun spécifique à une compétence, une langue cible et éventuellement un niveau (par exemple B2-C1).

Il s’agira dans un premier temps d’exploiter la plateforme SELF telle qu’elle existe aujourd’hui, en proposant des tests linéaires (non-adaptatifs), constitués de suffisamment de tâches pour pouvoir diagnostiquer finement les compétences de l'étudiant et apporter des réponses personnalisées en termes de feedback formatif. En croisant les résultats obtenus avec les caractéristiques de chaque tâche, on peut rapidement aboutir à un système d’évaluation diagnostic intéressant.

L’objectif à plus long terme est d’implémenter directement sur SELF de nouvelles typologies d’exercices, plus adaptés à l’évaluation fine de la compréhension ou à l’évaluation de productions plus longues. Pour la compréhension de l’oral, des outils ont déjà été développés au sein de l’IDEFI Innovalangues dans le LMS open source franco-belge Claroline Connect, afin de saisir, pendant le processus de compréhension de l’oral, les éléments qui font obstacle à la compréhension. Ces outils – appelés « outils de bornage » – permettent d’une part de concevoir des tâches portant sur des éléments langagiers (d’ordre phonético-prosodique, lexical, syntaxique, pragmatique) susceptibles de faire obstacle à la compréhension. L’apprenant est ainsi invité à interagir avec la tâche en utilisant un protocole spécifique d’activité lui permettant de « borner » directement sur l’extrait sonore les réponses aux questions posées, en les mettant en surbrillance et en obtenant un feedback. Les données collectées pourront également compléter de manière substantielle le panel des zones de résistance à la compréhension relevées – à ce jour encore à petite échelle – dans la littérature de la didactique de l’oral dans les langues ciblées.

Une version diagnostique de SELF pourrait répondre non seulement aux exigences des non-spécialistes dans des contextes d’enseignement/apprentissage des langues mais également aux besoins plus avancés des linguistes spécialistes en cours de formation ou des étudiants atteints de troubles spécifiques d’apprentissage. Pour ce qui est des spécialistes, nous pensons notamment aux futurs enseignants de langues et, du fait de la longue et solide collaboration établie avec l’Université de Bologne autour de ce projet, à un public d’étudiants engagés dans la filière d’interprétation (que l’UGA n’accueille pas). Lors d’opérations cognitives et langagières complexes comme celles impliquées dans l’interprétation simultanée, ces étudiants doivent en effet mobiliser en même temps un vaste panel de compétences avancées en langues ainsi que des savoir-faire procéduraux. « SELF Diagnostic » pourrait alors être mis au service des besoins de ces étudiants spécialistes pour tracer leurs attitudes en compréhension de l’oral. Pour ce qui est du public atteint de troubles spécifiques d’apprentissage, une intégration de l’outil de « bornage » dans le flux sonore à l’oral ou bien dans le repérage de segments de texte à l’écrit pourrait documenter les difficultés de compréhension spécifiques à ce public, et évitant de confondre les obstacles relevant de cette difficulté spécifique avec un manque de compétence en L2.

Évaluation automatique de la production écrite et orale

La principale limite des tests automatiques en langues est l’évaluation de la production écrite et orale de l’apprenant. Jusque là, tous les tests qui proposent une évaluation des compétences de production, qu’ils soient positionnants ou certifiants, recourent à une évaluation exclusivement manuelle, onéreuse et chronophage. En proposant d’évaluer la compétence d’Expression Écrite Courte (EEC), SELF s’est donné l’objectif ambitieux d’évaluer la production écrite avec les moyens qu’il avait à disposition, mais il se limite donc à évaluer des saisies de mots dans des textes lacunaires, ou propose des exercices à choix multiples en plongeant l’étudiant dans une situation de production langagière. L’EEC telle qu’elle est évaluée par SELF est beaucoup critiquée car elle est grandement influencée par la compréhension écrite du document, et ne mobilise pas suffisamment la compétence de production de l’apprenant.

Pourtant les avancées en traitement automatique de la langue offrent aujourd’hui des perspectives concrètes pour l’évaluation des productions d’apprenants.

En ce qui concerne la production écrite, il serait intéressant d’expérimenter une évaluation basée sur l’analyse morphosyntaxique de phrases écrites entièrement par l’étudiant, et donner un score de cohérence grammaticale par exemple (respect des règles syntaxiques, accords, concordances des temps). Nous pourrions également mesurer la richesse lexicale d’un texte, très commun en lexicométrie ; évaluer la précision orthographique grammaticale et lexicale, en repérant les types d’erreurs, en mesurant la distance de la production avec une référence à l’aide d’algorithmes de similarité de chaînes de caractères (distance de Levenshtein) ; ou encore mesurer la fluence de la saisie (débit, nombre d'autocorrections).
Nous venons de développer une nouvelle typologie d’item sur la plateforme SELF permettant la saisie de phrases ou d’un texte par l’étudiant, dans la perspective de répondre à des questions à réponse ouverte longue. Dans un premier temps, nous souhaitons intégrer un ou deux items de ce type, dans les versions déployées du test pour chaque langue, sans tenir compte des réponses pour le calcul du score final. Cela nous permettra de constituer un corpus de productions en contexte qui sera la base d’expérimentations de systèmes d’évaluation automatique.

En ce qui concerne la production orale, la tâche est plus compliquée. Elle nécessite d’une part une infrastructure informatique capable de stocker et traiter des enregistrements audio pour chaque passation (on parle donc de dizaines de milliers de fichiers son), d’autre part les technologies actuelles permettent encore difficilement de reconnaître la parole non native. Concernant la prononciation, des travaux encourageants ont été réalisés à petite échelle pour évaluer la qualité de réalisation de certains phonèmes à partir ou non de systèmes de reconnaissance vocale (Harrison et al. 2009, Coulange 2016), l’accentuation lexicale en combinant des mesures de durées, d’intonation et d’intensité (Chen et Wang 2010 ; Chen et Jang 2012; Deshmukh et Verma 2009; Tepperman et Narayaanan 2005) et plus rarement des coefficients MFCC (Ferrer et al. 2015; C. Li et al. 2007; Shahin et al. 2016), ou encore la fluence de parole (Bhat et al. 2010, Fontan et al. 2018, Coulange 2019). Mais l’évaluation de la production orale doit également porter sur le fond, et est pour cela contrainte par la qualité des systèmes de reconnaissance automatique de la parole, très impactée par la qualité de la prononciation, et devenant vite onéreux. Il y a toutefois des pistes intéressantes à creuser dans cette direction, avec les systèmes actuels.

Pour entamer des expérimentations sur l’évaluation de la production orale, nous sommes actuellement en train de développer une fonctionnalité d’enregistrement audio sur SELF, qui permettra comme pour l’expression écrite de constituer un corpus de production en contexte, avec toutes les contraintes que peut présenter la passation du test (qualité variable des enregistrements, bruits parasites, traitement, stockage et export d’une grande quantité de données).

De plus, en collaboration avec le travail de l’équipe Thématique prosodie et production orale (THEMPPO), nous souhaitons développer un module expérimental d’évaluation de la prosodie de l’apprenant, recourant uniquement à des mesures acoustiques, et ne requérant donc pas de systèmes de reconnaissance de la parole. Ce module sera couplé avec des contenus de formation proposés par THEMPPO. Des prototypes d’évaluation de la fluence de la parole ont déjà été réalisés à l’UGA et pourront constituer un point de départ pour ce travail (Coulange 2019, Coulange et Rossato 2020).

Ce volet d’intégration de l’intelligence artificielle dans SELF pourrait aussi permettre de consolider la dimension diagnostique de l’outil, par l’ajout de tâches de production qui permettraient la création d’un profil d’apprenant multifacettes et complet.

Recherche en psychométrie : améliorations de l’algorithme SELF et impact des covariables sur les résultats au test

Le projet IRS CoPoLangues est le fruit de la collaboration entre le Lidilem (Innovalangues), le Laboratoire Jean-Kuntzmann (LJK), l'UFR de Langues Étrangères et le Centre Universitaire d'Études Françaises. Il se donne pour objectif de comparer les classifications en niveaux de l’algorithme actuel de SELF avec une méthode de classification non-supervisée appelée modèle des blocs latents (LBM), et de mesurer l’impact potentiel des covariables individuelles, comme la langue maternelle ou les langues secondes des étudiants.

Un logiciel de classification automatique de résultats SELF a été développé dans le cadre du projet, et sera bientôt mis en ligne sur l’un des serveurs du LJK. Ce logiciel est jusque là utilisé en local, et permet d’obtenir la classification idéale des étudiants en fonction de la manière dont ils ont répondu aux questions. Il ne s’agit donc plus seulement de niveau de compétences mais bien de profils de compétences. Notons que l’outil peut faire la même classification avec les items du tests, de manière à les catégoriser en fonction des réponses des étudiants. Ces informations psychométriques pourraient aider à améliorer la composition des tests actuels et futurs.

L’analyse de l’impact des covariables sur les résultats du test n’a pas encore donné de résultats concrets (le focus ayant été mis jusque là sur la conception du programme sus-cité).

SELF : Un outil facilitant la constitution de corpus de productions non-natives pour la recherche en didactique et en acquisition

Grâce aux récentes fonctionnalités de production écrite et bientôt orale de SELF, il devient possible de constituer facilement des corpus de productions d’apprenants, pouvant servir de base de travail pour la recherche en didactique et en acquisition du langage. Dans cet objectif, la plateforme SELF peut être également utilisée pour la constitution de corpus pour la recherche en didactique des langues, sans forcément procéder à une évaluation des compétences de l’apprenant.

Les productions pourraient également être évaluées manuellement, a posteriori, par l’enseignant, ou bien par une équipe d’enseignants si nous venions à intégrer la compétence de production dans les tests SELF, avec une évaluation humaine ou seulement semi-automatique.

Publié le  18 décembre 2020
Mis à jour le 25 janvier 2021