Table des matières - Hal-SHS

Un simple examen montre la difficulté de l'entreprise. ...... On parlera d'acte
illocutoire (ou illocutionnaire), consistant à poser une question, ... Et l'on
appellera effet perlocutoire (ou perlocutionnaire) l'effet attendu d'un acte
énonciatif, cet effet ...

Part of the document


Les paliers de la sémantique
Patrice Enjalbert et Bernard Victorri Dans l'analyse sémantique il est commode de distinguer plusieurs niveaux,
ou paliers, correspondant à une complexité croissante des « objets »
linguistiques à prendre en compte. Pour esquisser rapidement cette
« hiérarchie », reportons-nous à notre premier examen intuitif de la
construction du sens au chapitre 1. Nous avions distingué un premier niveau
qui est celui du lexique, c'est-à-dire des mots, en quelque sorte - et en
première approximation - constituants élémentaires porteurs de sens ; puis
celui de la phrase - ou plus généralement du syntagme - assemblage
structuré de mots en un tout cohérent porteur d'un sens relativement
autonome ; et finalement celui du texte, ou discours, suite de phrases plus
ou moins fortement corrélées, et qui constitue la forme globale que prend,
en général , le message linguistique. Pour exprimer ce jeu d'échelle -
certains diront de granularité - nous pourrons adapter ici une terminologie
due à F. Rastier[1] et distinguer une microsémantique pour la sémantique
lexicale, une mésosémantique pour le syntagme et la phrase, et une
macrosémantique pour le texte. Ce point de vue « structurel » doit être complété par une perspective qui
resitue le texte/discours dans un acte de communication, laissant toute sa
place au libre jeu de l'interprétation du lecteur/auditeur, et que l'on
désigne communément sous le terme de pragmatique. Ce que certains verront
comme un « au delà » de la sémantique, et qui pour nous constitue plutôt un
regard particulier opérant aux trois niveaux.
Certes la subdivision en trois paliers possède une portée linguistique très
générale, mais c'est sous l'angle de la sémantique que nous la
considérerons ici. Les questions que nous devrons nous poser sont : quelles
« valeurs » sémantiques peuvent être associées aux objets linguistiques
relevant de ces différents niveaux ? Quelles structures les organisent ?
Comment décrire les unes et les autres, comment les représenter - en
particulier d'un point de vue formel dans une optique de TALN ? Et d'un
autre côté, quelles opérations permettent de créer ces valeurs et ces
structures dans ce que nous avons appelé « la construction du sens » ?
Cette double problématique représentation/opérations sera un fil conducteur
de ce chapitre. Finalement, il faut insister sur le fait que ces niveaux sont tout sauf
étanches. La langue n'est pas un jeu de poupées russes ! Par exemple nous
verrons que, in fine, la sémantique d'un item lexical se définit dans un
contexte d'énonciation et un co-texte qui lèvent les ambiguïtés et en
ajustent en quelque sorte le sens. Un certain nombre de mécanismes que nous
choisirons ici de décrire au niveau du texte (par exemple ceux de la
coréférence et de la temporalité) apparaissent en fait dès celui de la
phrase. Etc. Disons que ces « paliers » sont plutôt des subdivisons de
méthode que de fait, ou des sous-systèmes articulés du système global de la
langue. Ces remarques étant posées, nous pouvons en examiner tour à tour
les caractéristiques spécifiques. 1. Le mot 1.1. Quelles unités minimales ? La première question sur laquelle il convient de revenir est celle des
unités minimales porteuses de sens, de la caractérisation des signes
linguistiques élémentaires. En première approximation nous avons répondu :
ce sont les mots. A y regarder de près, la situation est plus complexe. En premier lieu on trouve un certain nombre d'expressions plus ou moins
figées dont la décomposition en mots est problématique ou cacherait un sens
spécifique de l'expression dans son ensemble. Des exemples viennent
immédiatement : pomme de terre, river son clou (à quelqu'un), jusqu'à, en
face, double faute (au tennis)... La question est très concrète et
importante pour le TALN, car si l'on définit séparément les mots pomme,
terre, river, son, clou... il faudra élaborer des mécanismes permettant de
calculer le sens des expressions elles-mêmes. Un simple examen montre la
difficulté de l'entreprise. On préférera alors regrouper sous le terme de
lexie à la fois les mots et un ensemble d'expressions figées, et en faire
les entrées du dictionnaire. Mais on pourra aussi traiter certaines
constructions spécifiques, suffisamment régulières, par un calcul
compositionnel. Observons sur ce premier problème un phénomène intéressant,
à savoir que le sens d'une lexie complexe n'est pas réductible à la
« somme » du sens de ses parties : dans double faute il y a effectivement
l'idée d'une faute double (ou redoublée) mais on ajoute un trait spécifique
lié aux règles du service au tennis. Cet « ajout d'information » est une
caractéristique assez générale de la compositionnalité sémantique, sur
laquelle nous aurons l'occasion de revenir. On est donc conduit à considérer comme « élémentaires » des unités plus
complexes que le mot. Mais inversement, on est aussi amenés à analyser les
mots en unités plus petites. Observons-les dans un texte par exemple cet
extrait de constat d'accident : J'étais à un stop avec 2 voitures devant moi (...) Alors que la
première voiture passait ce stop je fis mon contrôle à gauche et je
démarrais mais je percutais la deuxième voiture (...) Les verbes apparaissent évidemment sous une forme conjuguée : passait,
fis, démarrais, percutais, ... tandis que les noms et adjectifs sont
accordés en genre et nombre : 2 voitures, la première voiture... On doit
donc analyser ces mots en constituants, un radical qui marque le mot
proprement dit et une désinence qui indique le temps verbal, le genre, le
nombre etc. : pass-ait, f-is, démarr-ais, percut-ais, voiture-s, premièr-e.
On parlera de morphème[2] pour désigner les unités véritablement minimales
porteuses de sens. On distinguera en particulier, comme mis en évidence
dans notre exemple, des morphèmes grammaticaux (comme -ait, -is, -é, -s,
-e) qui, du point de vue sémantique, portent des valeurs grammaticales de
temps, genre, nombre etc. ; et des morphèmes lexicaux relatifs à une
certaine « réalité conçue » : pass- (pour le concept général de 'passer'),
démarr- (pour 'démarrer'), premier- (pour 'premier'), etc. Mais on peut aussi considérer que ce que nous avons appelé « radical »
est susceptible lui-même, dans certains cas, de décomposition. Prenons le
mot agriculteur[3]. On peut le décomposer en agri (renvoyant selon
l'origine latine à ager, champ), cult- (renvoyant à 'culture', 'cultiver'),
et le suffixe -eur (indiquant l'auteur d'une action, comme dans : aviateur,
percepteur, menteur...). Toutefois, on voit bien que le sens actuel en
français de ce mot va au delà de la culture de champs, incluant notamment
la pratique de l'élevage : nouvel exemple de la limite d'une
compositionnalité sémantique « stricte ». De manière générale l'analyse morphologique consiste à analyser un mot en
morphèmes (quelle que soit finalement la notion retenue). En pratique en
TALN on se limitera le plus souvent à établir, pour un mot donné, un lemme,
c'est-à-dire une forme canonique telle qu'une entrée dans un
dictionnaire (passer, faire, voiture, premier...), et une flexion
caractéristique d'une forme grammaticale. Ainsi passais sera analysé en un
lemme : passer, et une flexion (avec ambiguïté) : indicatif + imparfait +
première ou seconde personne du singulier. On dira que passais est une
forme fléchie de passer. On considérera alors de même que le, la, les
d'une part, un, une, des sont des formes fléchies en genre et nombre du
même article défini (lemme : le) ou indéfini (lemme : un)[4]. Du point de
vue sémantique, on aura des mécanismes de compositionnalité : le sens d'une
forme particulière résulte des valeurs sémantiques associées aux morphèmes
qui le constituent - cette « résultante » ne devant pas être conçue trop
strictement, comme l'ont montré les exemples précédents. Il faut souligner ici que les « formes grammaticales » sont elles-mêmes
signifiantes[5]. Il peut s'agir de mots tels que les déterminants (le, un,
ce...), prépositions (à, de, par...) ou conjonctions diverses (quand, où,
et, car...). On parlera alors de lexique grammatical, par opposé à un
lexique plein (ou lexique « tout court ») contenant les noms verbes,
adjectifs... qui renvoient à des objets ou concepts. Mais les morphèmes
flexionnels dont nous venons de parler doivent également être considérés
comme porteurs de sens. Ce point sera particulièrement développé dans le
présent ouvrage à propos du temps grammatical (chapitre 5) : nous verrons
en effet comment le temps d'un verbe, joint à d'autres indices, permet de
calculer effectivement, sinon la position temporelle précise de l'événement
auquel il réfère, du moins un ensemble de contraintes très fortes sur cette
position. Nous allons toutefois nous concentrer dans cette section sur
le lexique plein et nous considérerons les lexies comme unités élémentaires
(sans prendre donc en considération la décomposition en morphèmes). Le
lexique grammatical possède en effet des caractéristiques spécifiques,
liées à son usage général en langue et à son caractère fortement
polysémique, qui en font un objet d'étude particulièrement complexe[6].
Notre exposé portera principalement sur la représentation du sens lexical,
en particulier de manière formelle exploitable dans des procédures
informatiques. Nous aborderons également le problème de son calcul en
contexte ; ce qui pose notamment le problème de la polysémie (multiplicité
de sens), un fait majeur qui