Nouveau chapitre - GRAppA

Un enseignement de consolidation (E2CSL1) de 39h TD au semestre2 de L1 ....
orthophonie, traitement automatique des langues) qui doivent être formés aux ...

Part of the document


Nouveau chapitre de la thèse Sujet de thèse : Apprentissage de grammaires catégorielles pour simuler
l'acquisition du langage naturel à l'aide d'informations sémantiques Candidat : Daniela Dudau Sofronie
École Doctorale des Sciences pour l'Ingénieur
Université de Lille 1
Directeur de thèse : Prof. Rémi Gilleron Mentor: Mme Florence Mignard Breuzard Date de soutenance : 13 avril 2004 Cadre général et enjeux de la thèse Présentation succincte Mes travaux de thèse portent sur l' « Apprentissage de grammaires
catégorielles pour simuler l'acquisition du langage naturel à l'aide
d'informations sémantiques ». Ce sujet a comme point de départ les
tentatives de la recherche moderne pour construire des machines
intelligentes, capables d'apprendre le langage naturel de la même manière
que les enfants l'apprennent dans les premières années de leur vie. Simuler
ce processus complexe, mais normal pour n'importe quel être humain, est un
vrai défi pour les chercheurs. La robotique, la conception des interfaces
homme machine, le traitement automatique du langage naturel, la traduction
automatique, l'apprentissage des langues étrangères et l'étude des
comportements en psychologie sont des domaines qui pourront profiter de
l'évolution des systèmes d'acquisition du langage. Les chercheurs en psychologie comportementale affirment que l'apprentissage
se réalise seulement à partir d'exemples positifs (c'est-à-dire de phrases
issues d'une utilisation correcte du langage). D'un autre côté, les
linguistes supposent l'existence de schémas cognitifs innés pour les
enfants, facilitant l'acquisition du langage. Ainsi, n'importe quel enfant,
pourvu qu'il soit accueilli et non isolé, arrive à apprendre n'importe
quelle langue jusqu'à l'âge de 5 ans. Le contexte social qui entoure les
enfants leur offre des informations décrivant les scènes de vie auxquelles
ils participent. Ils perçoivent cet environnement avec leurs sens et ils le
comprennent, simplement par exemple en faisant le lien entre les
différentes situations où les mots sont utilisés (par exemple : le verbe
« dort » dans « le chat dort. » et « papa dort. »). Ainsi, l'enfant va
pouvoir construire de nouvelles phrases. Ma thèse synthétise ces hypothèses psycholinguistiques et utilise les
outils formels fournis par l'informatique théorique (des modèles
d'apprentissage), pour proposer un système capable d'apprendre la syntaxe
d'une langue (la langue française). L'originalité du système d'acquisition
étudié dans la thèse consiste à enrichir les phrases données comme exemples
avec une information sémantique (le sens simplifié des mots). Cette piste a
permis de découvrir, du point de vue théorique, une nouvelle classe de
« grammaires catégorielles ». Ces grammaires sont beaucoup plus adaptées à
l'apprentissage que les grammaires classiques « hors-contexte » : elles
sont lexicalisées (chaque mot porte des informations qui le caractérisent
dans la phrase), elles ont moins de règles et elles permettent une
interface avec la sémantique. Un prototype du système a été conçu et testé
sur une collection de textes en français (corpus). En conclusion, dans le domaine de l'acquisition du langage, ma thèse
propose un apprentissage exact, symbolique. Cette solution est cohérente
avec les hypothèses psycholinguistiques et, de plus, elle s'appuie sur des
modèles informatiques rigoureux. Ma thèse dans son contexte Je suis d'origine roumaine et la particularité de ma thèse a été le fait
d'être en co-tutelle franco-roumaine. Du côté français, le directeur de
thèse était le Prof. Rémi Gilleron et j'ai travaillé surtout avec mes
codirecteurs, au sein de l'équipe GRAPPA, rattachée à l'Université de Lille
3 (équipe d'informaticiens du pôle Sciences Humaines). Du côté roumain,
j'ai travaillé sous la coordination du Prof. Dumitru Todoroi à la Faculté
d'Informatique de Iasi. Grâce à cette thèse, les équipes française et
roumaine ont pu renforcer leurs liaisons et leurs échanges scientifiques. Soutenue financièrement par une bourse offerte par la Mairie de Villeneuve
d'Ascq dans le cadre d'un projet de jumelage avec la ville de Iasi, j'ai
été aussi très bien entourée du point de vue scientifique. J'ai bénéficié,
au sein de l'équipe GRAPPA, de nombreux échanges avec la communauté
scientifique, grâce à mes publications et mes exposés. Ces échanges m'ont
permis d'avoir de nouvelles idées et d'assurer une meilleure qualité de
recherche. 1 Moi dans ce contexte
Personnellement, l'attraction vers ce domaine de recherche a été naturelle.
Mon mémoire de fin d'études concernait déjà les techniques qui permettent
de faire des résumés automatiques, en s'appuyant sur le domaine de la
linguistique computationnelle. Le premier contact avec le sujet
d'apprentissage du langage naturel s'est produit au cours du DEA, que j'ai
suivi à l'Université de Lille 1, en qualité d'étudiante Erasmus. Les
résultats obtenus ont été prometteurs, un sujet de thèse m'a donc été
proposé.
1 Déroulement, gestion et coût du projet
Cette thèse, comme n'importe quelle thèse, comportait des difficultés
inhérentes à un travail essentiellement individuel. Du fait de la co-
tutelle, ma thèse amenait des risques complémentaires. Ainsi, le doctorant
devait être capable de s'intégrer dans des contextes sociaux et
linguistiques différents. Pour contourner ces difficultés, mes responsables
ont mis en place un suivi proche, réunions de recherche, contacts nombreux,
maintien d'une atmosphère propice dans le cadre de l'équipe.
Personnellement, j'ai apporté ma volonté de réussir et mes efforts. L'équipe française avait choisi des partenariats avec d'autres équipes
françaises et étrangères:
. pour apporter une contribution théorique au domaine de l'apprentissage
automatique, dans le cadre de projets comme l'action INRIA ARC-GRACQ ;
. pour aider la partie pratique de la thèse (les expérimentations) et la
validation psycholinguistique. Ainsi nous avons entamé une coopération
avec des linguistes et des psychologues de l'Université de Lille 3, dans
le cadre du projet européen « la Maison des Sciences de l'Homme ». J'ai exposé plusieurs fois mes travaux à ces partenaires, et j'ai préparé
certaines réunions. J'ai collaboré aussi avec un étudiant en Maîtrise
Linguistique pour la constitution du corpus : mon rôle a été de vérifier
les résultats obtenus et de lui donner des suggestions pour son rapport de
stage. Pour pouvoir gérer en parallèle deux procédures différentes de déroulement
d'un doctorat, l'une roumaine et l'autre française, j'ai établi avec mes
responsables et depuis le début de la thèse, un emploi de temps avec des
délais bien fixés. Des réunions de recherche pour contrôler les progrès
réalisés ont été proposées avec des fréquences différentes :
. une par semaine avec les responsables français : suivi détaillé du
travail, discussions diverses, décisions sur les éventuelles pistes à
suivre, exploration de nouveautés bibliographiques ;
. une ou deux par an, avec le directeur et l'équipe roumaine : évaluation
du travail effectué, présenté d'habitude sous forme d'un rapport écrit ;
. deux ou trois par an, dans le cadre des projets de partenariat : échanges
d'idées, mesure du stade d'avancement des recherches pour chacun des
participants ;
. une ou deux par an dans le cadre de l'équipe GRAPPA élargie. Les moyens humains dont ce projet a eu besoin s'élèvent à au moins 6
personnes, dont 4 permanents (sauf le doctorant). Du point de vue
financier, une des ressources a été la bourse de co-tutelle. A part la
bourse, j'ai gagné un complément de 4700 euros, suite à un appel d'offres
lancé par l'organisation française Egide en 2001, utilisé exclusivement
pour les déplacements entre la France et la Roumanie. Les moyens techniques
ont été limités à un ordinateur moyennement puissant, suffisant la plupart
du temps. Pour la partie expérimentale, j'ai utilisé le réseau de
l'équipe.
.
|Personne affectée |Temps |Source de |Salaire (kE)|
| | |financement | |
|Doctorant |42 |Bourse |20 |
| |mois |régionale | |
|Directeur de thèse|1 mois|Etat |4 |
|FR | | | |
|Directeur de thèse|1 mois|Etat |4 |
|RO | | | |
|Codirecteur |6 mois|Etat |20 |
|Codirecteur |6 mois|Etat |20 |
|Stagiaire DEA |5 mois| |-- |
|Stagiaire Maîtrise|3 mois|Budget du |2 |
| | |laboratoire | |
| |Total |70 |
|Type de dépense |Source de financement|Somme (kEuro) |
|Matériels |Etat et budget de |5 |
|(ordinateur, |l'équipe | |
|fournitures, | | |
|formations) | | |
|Déplacements France |Complément de bourse |4,7 |
|Roumanie |(Egide) | |
|Déplacements aux |Budget de l'équipe et|5 |
|conférences |financement par les | |
| |projets de recherche | |
|