Le TALN au service de la didactique du français ... - Archive EduTice
Mots-clés : acquisition d'une langue étrangère écrit, didactique de l'écrit en
langue ... Par ailleurs, l'apprentissage du FLE est sanctionné par une certification
.... Ici il s'agit d'une proposition indépendante de forme sujet S + verbe V + COD.
.... L'ensemble des productions analysées correspond aux examens d'histoire et
de ...
Part of the document
Le TALN au service de la didactique du français langue étrangère écrit Isabelle Audras, Jean-Gabriel Ganascia LIP 6 - Université Pierre et Marie Curie, 8 rue du Capitaine Scott 75015
Paris
Isabelle.Audras@lip6.fr
Jean-Gabriel.Ganascia@lip6.fr Résumé De nouveaux logiciels d'analyse textuelle tirent partie des progrès
récents effectués en apprentissage symbolique et dans le traitement
automatique des langues naturelles. Conçu au LIP6 par Jean-Gabriel
Ganascia, le Littératron est l'un d'entre eux ; il extrait automatiquement
des motifs syntaxiques[1] à partir de textes écrits en langage naturel.
Plus exactement, le Littératron prend comme entré un arbre d'analyse
syntaxique et donne en sortie un certain nombre de motifs syntaxiques
récurrents. Associé à un analyseur de textes, qui engendre l'arbre
d'analyse syntaxique à partir de textes écrits en langage naturel, il
révèle les singularités stylistiques de ces textes.
Nous allons voir qu'utilisé en sciences du langage, dans le domaine de
l'acquisition du français écrit, le Littératron permet d'effectuer un
diagnostic linguistique de l'apprenant, que celui-ci provienne d'une classe
de langue hétérogène (différentes langues maternelles) ou homogène (une
seule langue maternelle, en l'occurrence ici l'arabe). L'intérêt de cette
approche concerne trois domaines : d'une part la didactique des langues, à
titre éducatif ; d'autre part, la linguistique computationnelle, et enfin
l'enseignement assisté par ordinateur. Abstract
New text analysis softwares issued from fields of research such as Machine
Learning and Natural Languages Processing prove to be relevant tools for
the language sciences. Littératron is a new data-processing tool for the
automatic extraction of syntactic patterns, designed at LIP6 by Jean-
Gabriel Ganascia. Associated with a linear text analyser, it reveals the
stylistic peculiarities of a text.
We will see that Littératron carries out a linguistic diagnosis of learners
if used in language sciences, especially in the field of acquisition of
written French as a foreign language. The learner can be from a
heterogeneous group (various language levels and various mother tongues) or
from a homogeneous group (only one language level and one mother tongue,
here, Arabic). The interest of this approach is related to three fields:
first, language didactics, on a purely educational basis; next,
computational linguistics; finally, computer-assisted learning. Mots-clés : acquisition d'une langue étrangère écrit, didactique de
l'écrit en langue étrangère, TALN, extraction de motifs récurrents,
stylistique, diagnostic linguistique Keywords: foreign-language acquisition, foreign-language written
didactic, NLP, stylistics, extraction of recurrent patterns, linguistic
diagnosis
----------------------------------------------------------------------------
------------------------------------- Cadre théorique Les recherches sur l'acquisition de l'écrit en langue étrangère sont
récentes. Cependant elles ont bénéficié des résultats des recherches
concernant l'acquisition de l'écrit en langue maternelle. Prise de recul
par rapport à la langue, aide à la mémorisation : les vertus cognitives du
passage à l'écrit ne sont plus à démontrer (Mangenot 1998). De plus les résultats des recherches en linguistique textuelle croisent
également les intérêts de la didactique de l'écrit. En effet les notions de
cohérence textuelle et de pragmatique, au centre de la linguistique
textuelle, sont porteurs du développement chez l'apprenant d'une compétence
textuelle qui lui rend disponibles des outils d'articulation en vue de
construire un discours. Autrement dit, « les structures textuelles
formelles [...] guident le scripteur dans la construction d'un texte et le
lecteur dans sa compréhension" (Scardamalia & Bereiter, 1986)
Selon Tuffs (Tuffs, 1993), travailler sur des genres textuels différents
facilite l'acquisition des langues étrangères. De façon générale, l'écrit
en classe de langue est associé à une consigne qui prévoit l'intention de
communication, même à l'extérieur d'un genre. En effet, le cadre narratif
choisi, par le genre ou la consigne, définit un objectif de communication
précis. Celui-ci appelle des objectifs fonctionnels dont l'expression
morphosyntaxique et lexicale est vue en classe. Ce contenu linguistique,
découvert à l'intérieur d'une situation de communication, est automatisé
lors de réemplois, et ceci est d'autant plus vrai si celui-ci se trouve
dans un contexte similaire. Enfin, l'analyse des besoins communicatifs du
cadre narratif aide l'apprenant à s'adapter face à une nouvelle situation
de communication dans laquelle il doit réagir (Tagliante, 1994).
Par ailleurs, l'apprentissage du FLE est sanctionné par une certification
appelée DELF (Diplôme d'Etudes en Langue Française) aligné sur le cadre
européen commun de référence dans l'apprentissage des langues. Les épreuves
écrites A1, A2 et A3 ont pour cadre narratif, respectivement : la carte
postale, la lettre amicale, la lettre de motivation.
Dans ces deux types de production écrite en français langue étrangère, le
niveau de l'apprenant est validé par rapport à sa capacité à exprimer un
message à travers un modèle appris et reconnu et non simplement par rapport
à ses compétences grammaticales.
Autrement dit, la production écrite en classe de langue est le reflet des
compétences de l'apprenant lors du passage à l'écrit. Ses compétences se
révèlent à la fois dans la fréquence des expressions observées, dans ses
prises de risques et dans l'originalité de ses idées (Carroll, M. &
Stutterheim Ch., 1997). C'est pourquoi nous souhaitons repérer, grâce aux techniques actuelles du
traitement automatique des langues, les erreurs écrites usuelles d'une
population d'apprenants, ce qui permettra de mettre l'accent, au cours de
l'enseignement, sur la correction de ces erreurs.
Ce repérage des erreurs peut se faire soit dans l'absolu, par détection des
erreurs syntaxiques, soit par rapport aux usages, par une étude des
tournures propres à une catégorie d'apprenants dans un cadre narratif
précis, celles-ci se trouvant absentes ou peu usitées chez les locuteurs
natifs. C'est cette seconde approche que nous avons adoptée, sachant que le
rôle des enseignants de langue n'est pas d'enseigner une langue abstraite
parfaite mais de transmettre les usages d'une langue.
Plus exactement, le travail présenté ici recourt à l'emploi d'outils
d'analyse stylistique pour dégager les caractéristiques des apprenants,
selon leur niveau, et les distinguer des locuteurs natifs. Des études
empiriques conduites autour de trois populations d'apprenants, l'une à
Paris, à l'Alliance Française, l'autre à l'université de Naplouse
(Territoires Palestiniens), auprès d'un public arabophone et la troisième à
l'Ecole Normale de Port-au-Prince (Haïti) auprès d'étudiants créolophones
valident l'approche proposée.
2. Présentation des outils informatiques utilisés Deux outils informatiques sont nécessaires pour extraire les motifs
syntaxiques caractéristiques des différentes populations. Un motif
syntaxique se définit comme une association d'unités linguistiques
cohérentes. Voici un exemple de motifs extraits des analyseurs ayant la
structure syntaxique [préposition + pronom personnel réfléchi + verbe à
l'infinitif] : "de vous adresser", "afin de vous donner", "de m'investir",
"de vous donner". Ces quatre motifs ont été extraits ensemble d'un même
groupe de scripteurs de lettres de motivation. Le premier outil informatique requis est un analyseur morphosyntaxique du
français qui construit des arbres syntaxiques à partir de productions
écrites. Nous avons eu recourt à l'analyseur linéaire avec dictionnaire
partiel Vergne qui a été élaboré par Jacques Vergne de l'Université de
Caen, en 1998 (Vergne, 2001). Le deuxième est l'analyseur stylistique
Littératron, mis au point au LIP6 par Jean-Gabriel Ganascia (Ganascia,
2001) qui dégage les motifs syntaxiques récurrents présents dans ces
arbres.
Plus exactement, à chaque mot ou groupe de mots l'analyseur de Vergne
associe une étiquette ; un arbre stratifié est donc une partition
d'étiquettes dont les classes dépendent de la profondeur du n?ud dans
l'arbre d'analyse. Etant donnée une structure d'ASO, le Littératron calcule
une mesure de similarité entre plusieurs ASO, fondée sur la notion de
distance d'édition, et génère un graphe de similarité enregistrant les sous-
arbres les plus proches de l'ASO en entrée. C'est ce graphe de similarité qui sert ensuite d'entrée à l'algorithme de
classification du Littératron, appelé 'centre-étoiles', qui construit des
classes de motifs similaires et leur attribue un nom significatif. En
effet, l'algorithme centre-étoile évalue d'abord l'ensemble des étoiles
centrées sur les différents n?uds puis il prend, pour chacune, la somme des
valeurs de similarité des n?uds de chaque étoile au centre. Une fois
calculée la valeur de chaque étoile, l'algorithme 'centre-étoiles' prend
celle qui à la plus forte évaluation. On marque ensuite, les n?uds qui
appartiennent à cette première étoile, avant d'appliquer récursivement le
même algorithme sur les n?uds non marqués, jusqu'à épuisement des n?uds non
marqués.
En résumé, toute étoile est un sous-graphe du graphe de similarité
centré sur un n?ud. Po