Les corpus oraux - Hal-SHS
[4] Néanmoins, un examen plus attentif des faits relevés dans les corpus aboutit
... En ce qui concerne le rapport morphologie / syntaxe, la démonstration portera
...
Part of the document
LES CORPUS ORAUX : SITUATION, EXPLOITATION LINGUISTIQUE. BILAN ET
PERSPECTIVES
Jeanne-Marie DEBAISIEUX
Université Nancy2 RESUME
Après un bref panorama des principaux corpus existant dans le domaine du
français parlé, l'article présente au travers des travaux de l'équipe Delic
(Université de Provence) comment la prise en compte de données orales
informatisées a permis le renouvellement de l'analyse syntaxique du
français, en particulier en ce qui concerne les relations
morphologie/syntaxe, les liens entre le lexique et la grammaire et l'impact
du genre du texte sur la répartition des faits grammaticaux. L'auteur
expose ensuite les limites des outils existants et les difficultés
inhérentes à la constitution et à l'automatisation de corpus oraux
échantillonnés. L'objectif de la présentation qui suit[1] est de proposer un panorama
non exhaustif de l'existant en ce qui concerne les corpus oraux en France
et de présenter des perspectives et problématiques touchant tant à la
constitution des corpus qu'aux possibilités d'exploitation qu' offrent les
outils informatiques. L'exposé s'appuie essentiellement sur les travaux
menés par l'équipe Delic de l'Université de Provence[2]. A. La situation : les corpus oraux informatisés disponibles pour le
français La situation en France en ce qui concerne les corpus de données orales
se caractérise par un émiettement des données et un retard certain. Comme
le signale J. Veronis (2000) : « Au moment où le British National Corpus
propose 100 millions de mots étiquetés du point de vue grammatical et 10
millions de mots de parole transcrite, rien d'équivalent en France ». En
effet il n'existe pas en France de corpus comportant à la fois de la langue
orale et de la langue écrite, comme il en existe en Espagne, au Portugal,
en Italie et bien sûr en Angleterre et aux Etats Unis[3]. La liste fournie
en annexe est loin d'être exhaustive mais donne une image de la situation
française : les corpus de langue parlée sont beaucoup plus restreints, il
sont souvent de taille modeste et rarement consultables par des personnes
extérieures à la recherche locale. Ainsi les corpus du Gars, (Groupe Aixois
de Recherche en syntaxe - Université de Provence), de Lyon II ou de Paris
III, souvent cités dans les travaux ne sont pas directement accessibles. On
peut poser qu'il y a sans doute entre quatre ou cinq millions de mots
effectivement disponibles mais l'absence de coordination rend
l'exploitation de l'ensemble impossible. La Délégation Générale de
la Langue Française a lancé récemment une enquête, sous la responsabilité
de Paul Cappeau de l'université de Poitiers, qui permettra de mieux
connaître l'ensemble des ressources et de fédérer l'existant. Actuellement,
les corpus les plus importants en France sont ceux constitués par l'équipe
Delic, (Description Linguistique sur Corpus - anciennement Gars). Le
premier corpus en taille, plus d'un million de mots, est le corpus oral
CorpAix, initié par le Gars. Pour des raisons juridiques et compte tenu des
modalités de constitution de ce corpus dont les premières données ont été
récoltées dans les années 70, ce corpus n'est pas diffusable. Dernièrement
l'équipe Delic a produit « Le Corpus de Référence du Français Parlé » qui
constitue le premier corpus francophone aligné et échantillonné et dont le
lecteur trouvera une présentation détaillée dans le N° 18 de la revue
« Recherches sur le Français Parlé ». Au-delà des ses imperfections,
l'outil, qui est encore en cours de révision, constitue un premier
témoignage de la langue française parlée aujourd'hui dans les principales
villes de France. La présentation avec alignement offre en outre de
nouvelles possibilités d'exploration. La plupart des autres corpus
francophones importants se trouvent en Belgique et au Canada.
B. Les corpus : possibilités d'exploitation
Les recherches menées sur les corpus oraux portent sur différents
domaines de la linguistique : on peut citer les travaux de l'équipe de
Kerbart Orecchioni à Lyon sur l'analyse des interactions verbales, les
travaux de Marie Annick Morel sur l'intonation et la structuration de
l'oral spontané, les travaux de sociolinguistique de Françoise Gadet et les
études grammaticales menées par l'équipe Gars / Delic. C'est à ces
dernières que nous attacherons dans cette présentation. On a en effet le
sentiment que, dans le domaine de l'analyse grammaticale, la nécessité
d'utiliser des corpus oraux n'est toujours pas reconnue par la communauté
scientifique. Or il ne fait aucun doute pour qui travaille sur la grammaire
d'une langue que la constitution d'un corpus oral est un outil précieux, ne
serait-ce que par sa valeur heuristique. C'est à partir de l'écrit que nous
avons développé une attitude réflexive et notre intuition de la langue est
particulièrement limitée en ce qui concerne le domaine de l'oral. Comme le
signalait déjà L. Blomfield (1927), traduit et cité par C. Blanche-
Benveniste (1999) : « Nous n'avons pas appris à savoir ce que nous faisons
quand nous parlons : structure des sons, grammaire réellement utilisée». Si
l'on ajoute à cela le fait que beaucoup d'études linguistiques s'appuient
sur des corpus écrits très normatifs et ignorent les productions émises
spontanément par les locuteurs, on comprend mieux l'importance des
divergences constatées entre notre intuition et la « réalité langagière »
de l'oral.
Nous présenterons tout d'abord un premier exemple de ce décalage qui
concerne le phénomène de la négation en français dont on sait qu'elle peut
apparaître sous deux formes : la négation double « ne...pas » et la
négation simple « pas ». On pourrait intuitivement analyser la différence
entre les deux en termes de variation stylistique : la seconde serait une
forme familière de la première et l'opposition :
1) je ne la trouve pas méchante vs je la trouve pas méchante
pourrait être décrite en termes de registre de langue. C'est la conclusion
à laquelle aboutissent la plupart des études consacrées à ce sujet.[4]
Néanmoins, un examen plus attentif des faits relevés dans les corpus
aboutit à poser, au-delà de la différence formelle constituée par la
présence ou l'absence du « ne », une différence de portée : la négation
double, qui encadre le verbe, porte explicitement sur ce dernier, alors que
la négation simple peut donner lieu à deux parenthésages : le premier
commun à la négation double, le second soulignant la portée spécifique
limitée au constituant qui suit.
je la trouve pas (méchante ) vs je la trouve (pas méchante)
On relève effectivement dans les corpus des exemples pour lesquels la
portée « limitée à droite » de la négation est très nette et associée à une
position particulière, séparée du verbe. Dans l'exemple qui suit :
2). j'ai une seule fois dans ma vie (pas eu le trac) ( Line Renaud -
France Inter)
la structure est liée à une interprétation spécifique paraphrasable en
« j'ai toujours eu le trac sauf une fois ». Dans ce cas, une formulation
avec double négation, d'ailleurs impossible avec cet ordre des mots :
2') *je n'ai une seule fois dans ma vie pas eu le trac
aboutirait à un sens très différent. De tels exemples amènent à une
réanalyse de la négation simple et en particulier à une remise en cause du
statut de simple variante stylistique qui lui est conférée.
Dans cette optique, nous présenterons dans la section qui suit
quelques exemples du renouvellement des études grammaticales que peut
apporter la prise en compte des données de corpus oraux. Ce renouvellement
concerne essentiellement : les rapports morphologie / syntaxe, les
relations entre le lexique et la syntaxe et la prise en compte du rôle des
« genres » au sens de Biber (1988) dans la description linguistique. 1. Renouvellement des rapports morphologie /syntaxe
En ce qui concerne le rapport morphologie / syntaxe, la démonstration
portera sur une nouvelle approche des conjonctions dites de subordination
au travers l'exemple de parce que. Les grammairiens ont relevé depuis fort
longtemps à propos de ce morphème, qu'ils définissent par ailleurs comme
« conjonction de subordination de cause », des emplois qu'ils ont du mal à
analyser et dans lesquels parce que aurait plutôt une valeur équivalente à
une conjonction de coordination de type « car » ou un adverbe argumentatif
comme « en effet » C'est le cas dans l'exemple qui suit :
3° Il est à la fac j'en suis sûre (parce que , car, en effet ) j'ai
vu sa voiture dans le parking
Ces exemples ne font pas l'objet de description particulière. Ainsi
Muller (2002 : 91) après avoir signalé qu' « il faut réserver le statut de
connecteur à la classe de mots comme car » et que dans ce cas, « le segment
connecté forme obligatoirement un schème syntaxique dans son association
avec une première phrase, au lieu de former un complément comme il le
ferait avec une conjonction de subordination.»[5] se borne à constater :
« Une conjonction de subordination peut être connecteur lorsqu'elle
ne construit pas un complément adverbial intégré à la phrase antérieure :
Il fait beau, parce que Paul se promène »
Il n'y a pas de lien de cause à effet . [...]. Mais la frontière reste
difficile à délimiter ».
On pourrait attribuer cette absence de description d'un emploi[6], qui
remet pourtant en cause une opposition parce q