Développer une bonne mesure des compétences en écriture anglaise : une interview avec Larry Davis
Voici une conversation entre Larry Davis, directeur de la recherche de l’ETS, qui joue un rôle de premier plan dans la recherche sur le TOEFL® depuis plus de dix ans, et John Clark, directeur des initiatives stratégiques. Vous pouvez lire plus de recherches de Larry ici.
Larry, je voulais commencer par une question sur ton parcours académique. Est-il vrai que vous avez d’abord obtenu une licence en sciences des pêches ?
Oui, j’avais une licence en sciences animales avec une spécialisation en aquaculture, puis un master en sciences halieutiques.
Sauvage ! Cela peut sembler une question injuste, mais existe-t-il des liens entre ces domaines et l’évaluation linguistique, la carrière que vous avez choisie ?
Ce sont des domaines d’étude très différents, c’est certain. Mais il y a quelques points communs. Et cela concerne le fait de devoir comprendre comment mesurer les choses puis analyser ce que l’on mesure.
Dans mon travail en pêche, nous avons étudié la physiologie et le comportement migratoire du saumon. Et il n’y avait pas toujours des moyens établis de mesurer les phénomènes liés à ces choses.
Donc une grande partie de ce travail consiste d’abord à déterminer comment mesurer quelque chose qui va nous dire quelque chose d’intéressant ? Et une fois que vous avez ces données, comment les évaluez-vous ou les analysez-vous pour éclairer la prise de décision ?
Dans les tests de langage, le problème persiste. Quel genre de preuves collectons-nous de la capacité de quelqu’un à communiquer en anglais ? Comment collecter ces données ? Et comment l’évaluer de manière à être utile pour éclairer la prise de décision ?
Ce sont donc des domaines très différents, mais ils rencontrent tous deux un type de problème similaire.
C’est une comparaison très utile. Au fait, je suis déjà allé aux échelles à saumon sur la rivière Willamette en Oregon, où ils ont construit des structures permettant aux saumons de nager autour des barrages pour frayer en amont. C’est tout ce que je sais du saumon.
J’ai déjà exploré des endroits comme ça, y compris à l’intérieur de grands barrages hydroélectriques où on n’a probablement même plus accès à cause de problèmes de sécurité.
Ah ! Tu sembles avoir choisi un champ moins dangereux. Mais vous avez posé les bases du sujet que je voulais aborder.
L’un des défis les plus épineux dans l’évaluation en anglais est de trouver comment collecter des indicateurs significatifs des capacités d’écriture d’un élève en anglais. Comment pensez-vous les défis inhérents à l’évaluation des compétences en écriture lors d’un examen standardisé ?
Je pense qu’un défi fondamental est que, comme vous l’avez laissé entendre, nous ne pouvons recueillir qu’un très bref échantillon de ce que quelqu’un peut faire par écrit.
Et puis, sur la base de cet échantillon – que ce soit dix minutes, une heure ou même quelques heures – ce n’est qu’une petite partie de tout l’écriture qu’une personne peut faire, à la fois en termes de nombre de mots écrits au cours de sa carrière académique, ainsi que des différents types d’écriture que quelqu’un pourrait écrire dans ses études.
Donc le jeu repose vraiment sur la prédiction. Nous collectons un échantillon de ce qu’ils peuvent faire. Et ensuite, sur la base de cet échantillon, nous faisons quelques extrapolations sur ce que nous pensons que cette personne est susceptible de faire dans le monde réel. C’est donc là le défi fondamental.
Il existe différentes approches raisonnables pour relever ce défi. D’une certaine manière, on peut prendre un échantillon relativement bref et le combiner avec d’autres données pour avoir une idée des capacités générales de quelqu’un. Et c’est l’approche typique des tests de maîtrise des langues.
À l’autre extrémité du spectre, on peut faire accomplir des tâches très spécifiques à une situation donnée, ce qui permet d’obtenir des inférences plus directes sur ce que quelqu’un peut faire dans cette situation.
Ce type de test « à des objectifs spécifiques » pourrait ressembler à un examen du barreau, qui est probablement un peu plus proche de la rédaction qu’un avocat devrait faire, contrairement au type d’écriture très générale que nous avons tendance à évaluer lors des tests de compétence linguistique.
En ce qui concerne spécifiquement le TOEFL, vous et notre collègue John Norris avez mené nos efforts pour étudier l’impact d’un nouveau type de question appelé Write for an Academic Discussion. Pourquoi l’ETS a-t-il jugé bon de revoir notre façon de tester l’écriture sur le TOEFL ?
Eh bien, plusieurs raisons ont motivé le développement de cette tâche. L’une d’elles est que depuis le développement initial de l’IBT du TOEFL, à partir du milieu des années 1990 et jusqu’au début des années 2000, l’écriture qui se fait dans les milieux universitaires a sans doute changé.
Mais le test n’avait pas changé. Nous avons donc estimé, dans ce cas, qu’il y avait une certaine justification de considérer les types d’écriture récemment développés. Et ces genres ont tendance à être plus courts. Ils ont aussi tendance à être plus conversationnels.
Nous voulions développer une tâche qui capture une partie de cela. C’était donc une motivation. Un autre avantage supplémentaire est que cela aiderait idéalement à réduire le temps de test. Dans la version précédente du test, la section écriture du TOEFL IBT prenait essentiellement une heure et comportait deux éléments.
D’un point de vue psychométrique, cela ne vous donne pas beaucoup d’informations sur le temps que les gens passent sur cette partie du test. Ainsi, cette économie en temps de test était un autre avantage supplémentaire pour concevoir la tâche.
En dehors de rendre cette section plus efficace en termes de temps, quelles ont été les autres motivations derrière le développement de la tâche Écrire pour une discussion académique ?
Un autre objectif était d’apporter un contexte supplémentaire à l’écriture. La tâche que Write for an Academic Discussion a remplacée était une tâche d’essai très traditionnelle. On a une question d’opinion, vous savez – lequel préférez-vous, les chiens ou les chats ? Et c’est tout ce que vous recevez.
C’est un type d’item de test très traditionnel et utilisé depuis longtemps. Mais cela ne donne pas de contexte. Et cela ne vous dit pas qui est le public. Cela ne vous apprend rien non plus sur la situation plus large. Ce manque de contexte a été critiqué dans la communauté des écrivains, mais aussi, en pratique, il crée des problèmes pour décider si une réponse est appropriée ou non.
Par exemple, vous pourriez avoir un élève qui écrit dans un style académique et un autre qui écrit dans un style familier. Les évaluateurs auront tendance à vouloir donner un score plus élevé à l’étudiant au style plus académique, mais il n’y a pas vraiment de raison de principe de privilégier ce type d’écriture par rapport à l’argot parce que nous ne leur avons pas dit qui est le public.
C’est donc un autre point important aussi. Définir clairement le but et le public nous aide à évaluer ces réponses de manière plus rationnelle.
Pour ceux qui n’ont pas suivi le TOEFL récemment, la tâche Écrire pour une discussion académique comporte une suggestion d’un professeur, ainsi que deux réponses d’étudiants. Et on attend de l’élève qu’il aborde ces questions comme il le ferait dans un cadre académique moderne.
Oui, c’est exact.
Comment gagner en confiance qu’un type de tâche comme celui-ci convient à l’examen ?
C’est une très bonne question. Et la validité des tests – ce que cette question aborde – est un domaine que les étudiants diplômés en évaluation du langage passent beaucoup de temps à étudier. C’est un sujet auquel le domaine a vraiment accordé beaucoup d’attention depuis de nombreuses décennies. Et en conséquence, nous avons des procédures très bien établies pour réfléchir à la manière de justifier une tâche de test.
Cela prend généralement la forme de ce qu’on appelle un argument de validité qui devrait prendre en compte certains types de preuves. Ce type de preuve pourrait être la relation entre la tâche et les tâches réelles. Alors, à quel point est-ce proche ou que cela nous apprend sur ce que quelqu’un peut faire dans le monde réel ?
Il inclurait également des preuves sur la façon dont la tâche est notée et sur la cohérence et l’équité de cette note. Et est-ce que le scoring capture réellement les aspects importants de ce que les gens doivent faire dans cette tâche ?
Cela impliquerait également de recueillir des preuves sur la façon dont cette mesure se rapporte à d’autres mesures similaires du même type de capacité. Par exemple, si nous avons une tâche d’écriture, elle devrait avoir une relation positive avec d’autres évaluations de l’écriture.
Enfin, il y a la question de savoir comment le test se rapporte à la performance dans le monde réel. Donc, si les gens obtiennent un bon score à l’examen, cela signifie-t-il qu’ils vont bien réussir dans des situations réelles, comme dans leurs cours d’écriture ? Et enfin, quel est le retour de retour ?
Et par « washback », j’entends : si les gens doivent se préparer à cette tâche, est-ce que cela améliore réellement leur capacité linguistique ? Cette préparation les aide-t-elle réellement à améliorer leurs compétences ? Ou apprennent-ils simplement à sauter à travers des cerceaux ? Et les gens se préparent si c’est un test à enjeux élevés.
Il y a donc tout un cadre et une chaîne de raisonnement qui justifient ces tâches. Et ce cadre fournit une base pour réfléchir à la manière dont nous décidons si une tâche de test ou de test est adaptée à l’utilisation.
Dans l’article où vous comparez la tâche Écrire pour une discussion académique à l’essai indépendant, vous avez trouvé « des similitudes dans la qualité du texte produit par les candidats en termes de complexité syntaxique, de précision grammaticale, de variété lexicale, de discours, de cohésion, d’élaboration et de fluidité de leur écriture. »
Et ces termes sont importants car ils font partie de la façon dont nous évaluons la performance des élèves. Mais que voulez-vous dire par « complexité syntaxique » ?
La complexité syntaxique concerne les structures grammaticales utilisées dans l’écriture. Certains auditeurs ont peut-être déjà schématisé des phrases à l’école et sauront de quoi je parle, mais une phrase plus complexe syntaxiquement aura un diagramme plus long et plus complexe. Et cela aura tendance à inclure diverses choses, comme plusieurs clauses.
Pour utiliser une métaphore : si une phrase simple est comme un bâton de bambou qui monte tout droit, une phrase complexe ressemble davantage à un arbre avec de nombreuses branches qui, idéalement, contribuent toutes à un sens cohérent.
Merci d’avoir clarifié ce terme – bambou, je comprends ! Parlez-moi un peu plus de l’étude sur la tâche d’écriture nouvellement affinée.
Le problème fondamental dans l’étude que nous avons réalisée est que lorsque la tâche Écrire pour une discussion académique a été introduite, nous ne voulions pas changer l’interprétation des résultats aux tests. L’idée est donc de changer la tâche, mais elle devrait toujours soutenir les mêmes types d’inférences sur la capacité de quelqu’un.
Et dans ce cas, il est important de regarder le type de preuves que nous obtenons de la tâche existante à ce moment-là par rapport à cette nouvelle tâche. Nous avons donc pris des données de personnes ayant effectué les deux tâches, puis analysé les différentes caractéristiques de l’écriture.
La complexité syntaxique était un point de comparaison avec d’autres que vous avez mentionnés : la précision grammaticale, l’utilisation du vocabulaire, la cohésion, les marqueurs du discours, ce genre de choses.
Puis-je poser une dernière phrase ? Variété lexicale. Qu’est-ce que ça veut dire ?
C’est du vocabulaire. Ou la diversité du vocabulaire, plus précisément. Et la raison pour laquelle nous regardons cela, c’est que ce n’est pas seulement une question d’utiliser beaucoup de mots différents ou de gros mots. C’est une question de précision. Si vous avez plus de mots dans votre sac à mots, cela vous permet d’être plus précis dans la communication de vos significations.
Compris ! Larry, merci pour le regard en coulisses sur la façon dont nous concevons une partie de notre test. J’ai un enfant qui apprend à écrire et, pour moi, c’est un miracle que je ne comprenne pas. Mais Larry, tu as aidé à démystifier le processus de mesure de l’écriture anglaise. Je vous suis très reconnaissant pour votre temps.
Ce fut un vrai plaisir de discuter, John – et toujours heureux de parler de la façon dont la saucisse est fabriquée, pour ainsi dire.
Oui, eh bien, et en parlant de dîner, parlons bientôt saumon aussi.
Ça a l’air super.