Introduction le traitement automatique des langues - Hal-SHS

1 Du traitement automatique des langues aux industries de la langue .... Par
exemple, l'examen des enchaînements de mots (2 ou 3, le plus souvent) et de
leurs ...

Part of the document

Article paru dans Le Français Moderne LXXII : 1, 2004 (F. Fuchs & B. Habert, dir.) (Version préliminaire) Introduction
le traitement automatique des langues : des modèles aux ressources Catherine Fuchs, Benoît Habert Pour des non spécialistes, le traitement automatique de la langue
(désormais TAL) peut apparaître comme un domaine homogène et unifié. En
fait, il n'en est rien [Cori & Léon, 2002]. Depuis la conception de modèles
théoriques jusqu'à la fabrication d'outils opérationnels, s'étend une
longue chaîne de travaux, dont l'hétérogénéité dans les objectifs, les
méthodes et les démarches est manifeste. Pour l'utilisateur (qu'il soit
linguiste, ou bien spécialiste d'une discipline le conduisant à travailler
sur du texte en langue naturelle), il est essentiel d'avoir conscience de
cette hétérogénéité - ainsi que du caractère nécessairement partiel et
perfectible des réalisations - afin de pouvoir s'orienter au mieux dans sa
quête d'outils utiles et aussi fiables que possible. Pour aider le lecteur
à se situer sur ce terrain complexe, nous brosserons à grands traits un
bref historique, puis nous présenterons les différents types de ressources
numériques actuellement accessibles, avant d'annoncer très brièvement les
différentes contributions ici rassemblées. C'est précisément aux nouveaux
produits (et aux méthodes associées) offrant des accès renouvelés à
certains aspects des textes en langue naturelle, que nous avons choisi de
consacrer le présent numéro du Français Moderne.
1 Du traitement automatique des langues aux industries de la langue L'hésitation entre deux dénominations, traitement automatique des langues
et industries de la langue correspond en fait à une évolution actuelle
importante : le reflux des grands projets censés offrir une solution
globale aux problèmes du traitement d'une langue et la multiplication des
produits, de plus en plus accessibles, d'ingéniérie linguistique [1]. Ces
produits et les méthodes associées offrent aux utilisateurs des accès
renouvelés à certaines données langagières.
1 1.1 Rappel L'objectif du traitement automatique des langues est la conception de
logiciels capables de traiter de façon automatique des données exprimées
dans une langue (dite « naturelle », par opposition aux langages formels de
la logique mathématique). Ces données linguistiques peuvent, selon les cas,
être de différents types (textes écrits, dialogues écrits ou oraux, etc.)
et de taille variable (du texte entier au mot isolé, en passant par la
phrase ou le syntagme). Qui dit « traitement » dit manipulation d'un objet
d'entrée aboutissant à la modification de cet objet en un objet de sortie.
Selon la nature de l'application, le traitement peut viser à transformer
des données linguistiques existantes (à des fins de correction,
d'extraction d'information, de résumé, de traduction...) ou bien à en
construire (génération de textes à partir d'informations). Le caractère
« automatique » du traitement visé impose un certain nombre de contraintes
fortes : pour que l'ordinateur puisse effectuer les calculs correspondants,
les données linguistiques doivent être appréhendées de façon totalement
explicite, cohérente et opératoire - d'où le recours à divers types de
formalismes et de techniques informatiques ; à cet égard, il n'est pas
inutile de rappeler que l'ordinateur ne sait faire que ce que le concepteur
du logiciel lui aura dit de faire ! Précisons enfin que, selon les cas, le
traitement peut être automatisé entièrement, ou bien seulement
partiellement - auquel cas on parlera plutôt de système « assisté par
ordinateur ».
2 1.2 A l'origine du traitement automatique des langues Le traitement automatique des langues est né à la fin des années quarante
du siècle dernier, dans un contexte scientifique et politique très précis.
D'une part la convergence d'intérêt de plusieurs scientifiques (linguistes,
mathématiciens et logiciens) a été à l'origine du courant des « grammaires
formelles », au milieu des années cinquante. Leur objectif était de décrire
le fonctionnement des langues (conçu comme représentatif, à cet égard, du
fonctionnement de l'esprit humain), à la manière d'une machine (et donc
grâce à une machine), c'est-à-dire en termes de calculs correspondant au
traitement d'informations diverses. Les initiateurs de ce courant ont été,
aux U.S.A., Z. Harris (cherchant à caractériser les « structures
mathématiques du langage », selon le titre de son ouvrage ultérieur de
1968 : [Harris, 1968]) et N. Chomsky (dans deux articles fondateurs, l'un
de 1956 sur la parenté entre théorie des grammaires et théorie des
automates [Chomsky, 1956], et l'autre de 1959 sur les propriétés
mathématiques de diverses classes de grammaires formelles [Chomsky, 1959] ;
voir aussi sa contribution de 1963 reprise dans [Chomsky & Miller, 1968]),
et en France M. Gross [Gross & Lentin, 1967] et M.-P. Schützenberger. Ce
courant s'originait lui-même assez largement du courant de la «
cybernétique » des années quarante (von Neumann, Wiener, Türing, McCulloch)
qui s'appuyait sur la logique mathématique (pour décrire le fonctionnement
du raisonnement), sur la théorie des systèmes (pour formuler les principes
généraux gouvernant tout système complexe) et sur la théorie de
l'information de Shannon et Weaver (comme théorie statistique du signal et
des canaux de communication). D'autre part, dans le contexte politique dit de la « guerre froide » entre
les U.S.A. et l'URSS, ces deux pays ont été amenés, dès la fin de la
seconde guerre mondiale, à s'intéresser (à des fins d'espionnage) à un
secteur d'application particulier : celui de la traduction automatique, sur
lequel ont toujours pesé, par ailleurs, des pressions venues du secteur
économique. L'histoire de la traduction automatique comporte,
schématiquement, trois moments [Fuchs, 1993b]. De la fin des années
quarante jusqu'en 1965, c'est l'euphorie des débuts : Weaver propose
d'utiliser les techniques du déchiffrage cryptographique pour traduire des
textes de façon automatique, et en 1952 se tient au M.I.T. la première
conférence sur la traduction automatique ; mais les premiers systèmes
américains (systèmes dits « de première génération », fonctionnant mot à
mot) s'avèrent décevants, au contraire des systèmes russes beaucoup plus
élaborés. En 1965, la commission ALPAC (Automatic Language Processing
Advisory Committee) s'interroge sur l'utilité de poursuivre les recherches
dans ce domaine : dès lors, les crédits sont considérablement réduits et la
recherche stagne jusqu'en 1975. Néanmoins de nouveaux systèmes (« de
deuxième génération ») voient le jour, tant aux U.S.A. et au Canada qu'en
France (au Centre d'Etudes pour la Traduction Automatique de Grenoble), sur
divers couples de langues ; contrairement aux précédents, ces systèmes
pratiquent une approche indirecte (distinguant un module d'analyse de la
langue-source et un module de génération ou synthèse de la langue-cible),
ils opèrent une stricte séparation entre les connaissances linguistiques et
la partie logicielle, et ils calculent la traduction sur la base d'une
analyse syntaxique préalable. Depuis 1975, l'augmentation des besoins en
traduction ainsi que la sophistication croissante des outils informatiques
ont conduit les activités de recherche et développement et la
commercialisation de produits à prendre le pas sur les recherches plus
fondamentales. C'est ainsi qu'ont été développés de nombreux systèmes
d'aide à la traduction (postes de travail pour traducteurs humains) et de
traduction assistée par ordinateur, dédiés à des domaines d'application
précis (météorologie, notices techniques d'appareils, etc.) : on est ainsi
passés du « traitement automatique de la langue » (recherche de systèmes
globaux, en grandeur réelle sur toute la langue, fondés sur des théories et
des concepts linguistiques) aux « industries de la langue » (développement
de systèmes limités du point de vue du domaine d'application et de la
couverture de la langue, et visant à répondre à un type particulier de
besoin). A l'heure actuelle, parmi les systèmes commercialisés, on distinguera : . les traducteurs électroniques de poche, qui ne sont rien d'autre que
des dictionnaires contenant quelques dizaines de milliers de mots,
d'expressions idiomatiques et de phrases-types de la vie quotidienne
pré-enregistrés dans plusieurs langues ;
. les systèmes restreints, robustes et simples, qui atteignent une
notable efficacité au prix d'une limitation sur le texte d'entrée (qui
doit relever d'un domaine fermé très limité, et se conformer à un
vocabulaire et à une syntaxe contraints pré-définis) ;
. les systèmes légers, utilisables sur micro-ordinateurs personnels et
contrôlés par l'utilisateur (qui complète son dictionnaire à mesure de
ses besoins) : les traductions, qui se font mot à mot, ne sont pas de
bonne qualité ;
. les systèmes lourds ou mi-lourds, dédiés aux entreprises effectuant de
la veille technologique ou bien aux traducteurs-réviseurs, et dont les
performances sont meilleures que celles des précédents, sans être pour
autant excellentes.
A côté de la traduction automatique, c'est le domaine du traitement de la
parole qui a été présent dès les origines du traitement automatique des
langues - là encore, sous l'effet