1 - Hal
Pour permettre l'analyse sémantique des propositions d'un texte, il apparaît donc
... information, comme cela est proposé par exemple pour le Web sémantique. .....
d'homogénéité entre la proposition en cours d'examen et la précédente pour .....
d'ingénierie linguistique[20], nous avons pu constater au travers d'exercices ...
Part of the document
Vers un outil de visualisation de la dynamique textuelle : l'exemple des
phénomènes citationnels et modaux Delphine Battistelli* - Marie Chagnoux** * Equipe LaLIC FRE2919
Université Paris-Sorbonne
Maison de la Recherche
28 rue Serpente
F-75006 Paris
delphine.battistelli@paris-sorbonne.fr **IRIT
Université de Toulouse
118 route de Narbonne
F-31062 Toulouse-Cedex4
marie.chagnoux@irit.fr RÉSUMÉ. Nous proposons d'exposer ici une méthode d'investigation du
phénomène des différentes prises en charge énonciatives (plus
particulièrement, le cas des citations) et modales à l'?uvre dans les
textes. Nous mettons l'accent sur la structure hiérarchisée des segments
textuels qui en résulte ; nous la représentons d'une part sous forme
d'arbre et d'autre part sous forme de graphe. Ce dernier permet
d'appréhender la dynamique interprétative d'un texte comme un cheminement
qui s'opère entre différents niveaux de discours au fur et à mesure de la
lecture syntagmatique. Cette approche prend toute sa légitimité dans le
cadre d'une plate-forme de navigation textuelle.
ABSTRACT. We propose a methodological framework for analyzing and
representing the concept of commitment, which is one of the features
characterizing textual structure. We emphasize the hierarchical structure
of textual segments commitment conveys to. We represent it first as a tree
and then as a graph. The latter enables us to access the enunciative
textual dynamics, as it shows the path followed through different
discursive levels during the syntagmatic reading of a text. Our approach is
well-founded for textual navigation platforms.
MOTS-CLÉS : linguistique textuelle, prise en charge énonciative,
représentation sémantique.
KEYWORDS: textual linguistics, enunciation, semantical representation.
1. Introduction Les applications de TAL qui visent à accéder au contenu sémantique de
documents traitent généralement l'information au niveau local : la
recherche d'information et le résumé automatique procèdent par extraction
de segments textuels plus ou moins longs à partir d'un texte ou d'un corpus
de textes, les repérages de citations ou de lieux spatiaux opèrent par
extractions d'entités nommées, l'annotation automatique porte sur des
segments que des balises isolent du contexte discursif, etc. Or l'hypothèse
qu'accéder à l'information consiste à extraire le segment pertinent de sa
structure globale pose un certain nombre de problèmes déjà clairement
identifiés, comme celui des anaphores auquel est consacrée une vaste
littérature (Busquets et Hardt, 2005). Plus largement, elle pose le
problème de la continuité référentielle, maintenue ou au contraire brisée
par rapport au texte de départ, qui naît à la lecture d'un document composé
d'une juxtaposition de segments extraits, comme a pu l'exposer (Battistelli
et Minel, 2006). Parmi les problèmes liés à la rupture de la continuité référentielle,
celui de la prise en charge énonciative et modale constitue l'un des enjeux
posés au TAL : non traité, il peut en effet, au même titre que celui des
anaphores, conduire à briser une certaine continuité référentielle, voire à
induire des raisonnements erronés si le contexte est ignoré. Prenons ainsi
par exemple le segment « l'appel à un cessez-le-feu urgent et non pas
immédiat constitue un échec » tiré de l'extrait présenté dans la figure 1. La Maison-Blanche s'est, elle, montrée satisfaite des résultats de la
réunion de Rome et a réfuté que l'appel à un cessez-le-feu urgent et non
pas immédiat constitue un échec.
Figure 1. Extrait du texte A[1]
Si le segment extrait n'est pas inscrit dans une continuité
référentielle, les informations inférées sont (i) que l'appel à cessez le
feu est un échec ; (ii) et que l'auteur de l'article assume cette
information. Or, non seulement l'indice lexical « réfuter » modifie la
valeur du segment (autrement dit, l'appel n'est pas un échec), mais de plus
la présence d'un second énonciateur « La Maison-Blanche » modifie la prise
en charge de l'information : l'auteur de l'article ne prend en charge que
le principe de la citation et non son contenu.
Pour permettre l'analyse sémantique des propositions d'un texte, il
apparaît donc nécessaire de disposer d'un outil qui permet d'associer le
segment à traiter - ici la proposition - à une représentation de la
structure qui véhicule des informations cruciales pour son traitement.
Nous proposons d'exposer dans cet article une méthodologie d'analyse et
de représentation de la structure énonciative et modale de textes. Cette
méthodologie repose sur le repérage, à partir d'indices linguistiques dits
de rupture, de différents segments textuels dont il s'agit, au travers
d'une représentation sous la forme d'un graphe, de montrer les relations
qu'ils entretiennent en suivant l'ordre syntagmatique de lecture du texte.
Nous illustrons les principes de cette méthodologie en nous appuyant sur un
corpus d'articles portant sur le conflit israélo-libanais pendant l'été
2007 (cf. annexe). Dans une première partie nous montrons pourquoi il est
nécessaire de (et comment) prendre en compte les mécanismes énonciatifs et
modaux dans les applications du TAL pour accéder à l'information dans les
textes et quelle est la nature de ces mécanismes. La seconde partie
présente la méthodologie opératoire que nous proposons. La troisième partie
expose les différentes étapes d'implémentation (réalisées ou en cours) qui
permettent de construire automatiquement le graphe à partir d'un texte.
Nous concluons sur le type de représentation du texte, d'ordre
hiérarchique, mis en évidence au travers de cette méthodologie.
2. De la nécessité de prendre en compte la structure énonciative et modale
d'un texte dans les applications du TAL 2.1. Quelques exemples Un texte s'inscrit dans une certaine dynamique énonciative et modale : - il est la trace d'au moins un acte d'énonciation, celui accompli par
l'énonciateur principal qui prend en charge l'ensemble du discours ;
- certains segments ne sont pas complètement assumés par cet
énonciateur, soit qu'un énonciateur second est convoqué au terme d'une
citation, soit que ces segments sont assujettis à un certain degré de
plausibilité ou d'intentionnalité.
Aussi, comme l'exemple précédent le montre, extraire une phrase ou une
proposition de son contexte énonciatif et/ou modal peut entraîner des
imprécisions et des contresens. Dans le cadre d'applications informatiques
comme la Recherche d'Information, cela peut également conduire à des
conflits. Ainsi, à partir de notre corpus, il est possible d'extraire les
deux phrases des figures 2 et 3. Le Hezbollah a capturé deux soldats israéliens qui patrouillaient dans
des jeeps blindées sur le territoire libanais à la frontière avec Israël.
Figure 2. Extrait du texte B Le mercredi 12 juillet, 8 soldats de Tsahal ont été tués et 2 ont été
kidnappés, au cours d'une attaque du Hezbollah à l'intérieur du
territoire israélien, près de la frontière israélo-libanaise.
Figure 3. Extrait du texte C
Toutes deux réfèrent à la même situation : la capture des deux soldats au
Moyen-Orient le 12 juillet 2006. Cependant, selon l'énonciateur, le lieu de
la capture est différent : pour l'association France Palestine, la capture
a eu lieu sur le territoire libanais alors que pour l'Ambassade d'Israël en
France, elle s'est déroulée à l'intérieur du territoire israélien. Un
système qui ne gère pas la prise en charge énonciative ne peut gérer le
conflit d'informations. Même si ce n'est pas toujours le cas dans l'absolu, la reconnaissance de
la source peut apparaître comme triviale dans certains cas d'applications
inter-documents puisqu'il suffit d'annoter le texte pour le doter de cette
information, comme cela est proposé par exemple pour le Web sémantique. La
problématique est différente quand le conflit apparaît au sein d'un seul et
même texte comme l'illustre l'extrait de la figure 4. A propos du lieu de l'enlèvement des deux soldats, les versions
diffèrent. Les Israéliens affirment qu'ils ont été capturés près de la
ferme collective de Zarit en territoire israélien tout près de la
frontière libanaise. De son côté, la police libanaise soutient que la
capture s'est produite dans la région de Aïta al-Chaab en territoire
libanais donc, proche de la frontière libano-israélienne où une unité
israélienne avait pénétré le matin même. Figure 4. Extrait du texte D Il apparaît ainsi comme nécessaire de préciser l'organisation des
phénomènes citationnels (ou modaux) à l'intérieur d'un texte pour indiquer
les faits ou évènements décrits qui sont effectivement pleinement assumés
par l'auteur d'un texte et, si non, avec quel type de distanciation. En
cela, il s'agit de dépasser le « simple » repérage des phénomènes
citationnels (ou modaux) comme cela peut être réalisé dans la plupart des
systèmes actuels (voir partie 2.2.1). En ayant ainsi organisé - sous une
forme hiérarchique comme nous le verrons plus loin - les différentes
« prises en charge énonciatives et/ou modales » (pour reprendre une
terminologie courante), un traitement informatique est à même de rendre
compte de la véritable attribution de tel ou tel propos à tel ou tel
énonciateur, que ce soit dans le cadre d'un traitement inter-documents ou
intra-document. C'est à ce problème d'identification de la structure
énonciative et modale d'un texte que nous nous proposons d'apporter des
éléments de réflexion