Organisation de la thèse - Clips

A?19 Analyse d'une phrase française en représentation par treillis ...... On les «
étiquette » par des énoncés IF, et on valide ensuite par examen manuel, ...... Ces
corpus ont été produits par le centre UNL comme un exercice de ..... On note des
améliorations substantielles des résultats produits par les versions corrigées des
 ...

Part of the document

Thèse présentée et soutenue publiquement par TSAI Wang-Ju pour obtenir le titre de DOCTEUR DE L'UNIVERSITÉ JOSEPH FOURIER - GRENOBLE 1 Spécialité INFORMATIQUE La coédition langue?UNL pour partager la révision entre langues d'un document multilingue 9 juillet 2004 Jury : Mme. Marie-France BRUANDET Président M. Patrice POGNAN Rapporteur M. Paul SABATIER Rapporteur M. Marc DYMETMAN Examinateur M. Gilles SÉRASSET Examinateur M. Christian BOITET Directeur THÈSE PRÉPARÉE AU SEIN DU GETA, LABORATOIRE CLIPS (IMAG, UJF, INPG & CNRS) Résumé
Étant donnée la demande croissante en communication multilingue, il est de
plus en plus nécessaire de créer et de maintenir des documents
multilingues, pour les entreprises internationales comme pour les
internautes. Pourtant, le problème principal reste : le coût de traduction
et de révision d'un document multilingue croît linéairement en fonction du
nombre de langues. Pour le résoudre, nous proposons de produire ces
documents multilingues par traduction automatique (TA), de partager le
travail de révision entre les langues, et de réviser incrémentalement, à la
demande et en mode coopératif. Notre solution est fondée sur l'utilisation d'un système de TA à « pivot »,
et reprend l'idée de « coédition » utilisée dans certains systèmes de
génération multilingue. Pour des raisons développées en détail, UNL
(Universal Networking Language) semble le meilleur langage pivot pour un
tel système. Dans notre approche, l'utilisateur peut non seulement éditer
directement le texte, mais aussi « coéditer » le graphe à travers le texte.
Pour cela, une heuristique construit automatiquement une correspondance
fine entre le texte et le graphe UNL en n'utilisant que des ressources
disponibles gratuitement pour beaucoup de langues (segmenteurs,
lemmatiseurs, dictionnaires). Pour chaque fragment de texte ainsi relié au
graphe, on peut construire un menu dont chaque item est formé d'une
annotation dans le texte et d'une action sur le graphe. Le graphe modifié
peut être ensuite déconverti dans plusieurs langues, qui bénéficient toutes
des corrections effectuées. Une maquette permet de démontrer un scénario
dans lequel l'utilisateur alterne entre lecture (monolingue) et coédition. Mots-Clés : Traduction Automatique, partage de révision, langage pivot,
interlingua, coédition, UNL, correspondances entre structures, génération
multilingue. Abstract
As the demand for multilingual communication increases, the need to
generate and to maintain multilingual documents becomes more and more
important, for both international firms and ordinary Internet users.
However, the main problem remains : the cost of translation and postediting
of multilingual documents increases linearly with the number of the
languages involved. To solve this problem, we propose to produce
multilingual documents by machine translation (MT), to share the task of
revision among languages, and to postedit incrementally on demand and in
cooperative mode. Our solution is based on using a "pivot" MT system, and building on the
idea of the "co-edition" as used in some multilingual generation systems.
As detailed in the thesis, UNL (Universal Networking Language) seems to be
the best pivot language for such a system. Users can not only directly edit
the text, but also "co-edit" the graph through the text. In order to
achieve this, a heuristic method is proposed to construct automatically a
fine-grained correspondence between the text and the UNL graph by using
only freely available resources for many languages (segmenters,
lemmatisers, and dictionaries). For each segment of the text linked to the
graph in this way, we can construct a menu, in which each item consists of
an annotation of the text and an action on the graph. The modified graph
can then be deconverted into several languages, all of which benefit from
the corrections. A prototype demonstrates a scenario where the user
switches between reading mode (monolingual) and co-editiing mode. Key words : Machine translation, postediting sharing, pivot language,
interlingua, co-edition, UNL, correspondences between structures,
multilingual generation. Remerciements
En premier lieu, je remercie profondément le directeur de ma thèse, le
professeur Christian BOITET, qui m'a toujours poussé jusqu'au bout et m'a
toujours soutenu aux moments les plus difficiles. C'est lui qui m'a montré
et appris la persistance et la précision indispensables pour être un
chercheur. Je suis toujours impressionné par son exigence et sa passion
pour la TA. Je remercie mes rapporteurs, le professeur Paul SABATIER et le professeur
Patrice POGNAN, qui ont accepté d'être rapporteurs de ma thèse à une
période très chargée. Je remercie le professeur Marie-France BRUANDET et le
professeur Marc DYMETMAN pour accepter d'être le président et l'examinateur
de ma thèse. Je remercie le professeur Etienne BLANC, qui m'a guidé dans la TA sur
ARIANE et UNL. Je remercie aussi le professeur Gilles SÉRASSET, Mr. Youcef
BEY, et Mr. Stéphane HELME pour leur aide et leur contribution à la
programmation de la maquette. Je remercie monsieur Hiroshi UCHIDA pour avoir inventé l'UNL, et toute la
communauté UNL, surtout le professeur Igor BOGUSLAVSKY, le professeur Jésus
CARDEÑOSA, et le professeur Irina PRODANOF, pour m'avoir aidé sur la
déconversion du russe, de l'espagnol et de l'italien. Je remercie aussi l'ensemble de l'équipe GETA qui m'a accueilli et aidé
durant ces années à Grenoble. Merci à Mutsuko et à Aree pour m'avoir aidé à
corriger le texte japonais et thaï. Et surtout merci à Karën, Christophe,
Mathieu pour leur amitié. Je remercie le professeur François TCHEOU, qui m'a accueilli
chaleureusement quand je venais d'arriver à Grenoble, et m'a soutenu tout
au long de mon séjour en France, et m'a toujours fait confiance. Je tiens à remercier Mr. John Kent de Londres et Madame Christina Cross de
Lodi, Californie, pour leur soutien psychologique, qui m'a beaucoup aidé à
mieux me comprendre. Enfin et surtout, mes remerciements vont à vous, ma famille à Taiwan, ma
Grande-mère, mes parents et Yi-Chia, sans vos soutiens cette thèse n'aurait
pas été possible. La conversation téléphonique hebdomadaire avec vous m'a
été très importante et chère. Merci encore pour votre patience et votre
écoute. Vous êtes toujours dans mon c?ur. I would like to thank Mr. John Kent from London and Ms. Christina Cross
from Lodi, California, without your insights, encouragement, and long-term
support, I wouldn't be able to come this far, and would probably still be
entangled in the push-and-pull of my emotions. It is the dialogue with you
that keeps me conscious and opens me up to the spiritual and psychological
world. I appreciate a lot the tools and the lessons you brought me and hope
that I can still keep on making the conscious choices in both scientific
and psychological fields, stop jumping on one foot and find the keys which
are out there in the dark, beyond the light of the lamp. ???????????????????????????????????????????? ???????????,?????????,??????????????????????????????????????????????????????
????????????????,????,?????????????,??????? ??,???????,?????????,?????? Table des matières
Résumé i Abstract i Remerciements iii Table des matières v Liste des figures xiii Liste des tableaux xvii Introduction 1
Situation et motivations 1
Intérêt de notre travail 2
Organisation de la thèse 3 A. Contexte et motivations 5
Introduction 5
1. Position du problème et motivation du paradigme de la coédition de
textes multilingues 7
1.1 Problème de la TA « classique » 7
1.2 Pour la TA multisource et multicible, une architecture à pivot
interlingue est nécessaire 8
1.3 Diminution des coûts par partage de la révision /post-édition en
TA multilingue - l'idée de la coédition 9
1.4 Utilisabilité par des non-spécialistes et des bénévoles 10
2. Définition des notions principales concernant la coédition 11
2.1 Présentation de quelques systèmes utiles pour préciser la notion
de coédition 11
2.1.1 LIDIA (Large Internationalisation des Documents par Interaction
avec l'Auteur) 11
2.1.1.1 Fiche d'identité 14
2.1.1.2 Remarque 15
2.1.2 MODEX 15
2.1.2.1 Fiche d'identité 16
2.1.2.2 Remarque 17
2.1.3 DRAFTER 17
2.1.3.1 Fiche d'identité 17
2.1.3.2 Remarque 18
2.1.4 Ambassador 18
2.1.4.1 Fiche d'identité 20
2.1.4.2 Remarque 20
2.1.5 L'approche WYSIWYM (What you See Is What You Meant) 20
2.1.5.1 Fiche d'identité 22
2.1.5.2 Remarque 23
2.1.6 Multimeteo 23
2.1.6.1 Fiche d'identité 25
2.1.6.2 Remarque 26
2.1.7 MDA (Multilingual Document Authoring) 26
2.1.7.1 Fiche d'identité 26
2.1.7.2 Remarque 27
2.2 Aspect principaux 27
2.2.1 Définitions 27
2.2.2 Application de cette taxonomie aux systèmes étudiés 28
2.2.