la dictée vocale - TAL Paris 3

Chaque utilisateur du PC devra se plier à cet exercice. ..... Voyons l'exemple de
la figure 6 : un exemple d'un treillis de mots obtenu par une méthode
descendante ou par une ... Elles consistent en l'examen de toutes les solutions
possibles.

Part of the document


LA DICTEE VOCALE
Deron Johanna SLFD1
INTRODUCTION : 3
I - HISTORIQUE 4 Quelques dates clés 4
La dictée vocale aujourd'hui 5
1) Une évolution récente 5
2) Des progrès remarquables 5
a.La dictée continue 5
b.Un vocabulaire évolutif 6
c. D'un mot à la mise en forme 7 II - Principe de fonctionnement 8 Analyse du signal de la parole et décodage 8
1) Deux étapes principales : la paramétrisation et le décodage 8
a. La paramétrisation 8
b. Le décodage acoustico-phonétique 9
2) Reconnaissance des mots isolés et de la parole continue 9
a. Les mots isolés 9
b. La parole en continu 12
c. Bilan: 14 III) Diverses applications 15 Reconnaissance de petits vocabulaires de mots isolés 15
a.Télécommunication 15
b.L'automatisation des services à opérateurs (assistance aux opérateurs)
15
c.Les répertoirs vocaux 16
Reconnaissance de grands vocabulaires : la dictée continue 16
a.Dictée personnelle d'IBM 16
b.Dragon Naturally Speaking 17 CONCLUSION : 18
INTRODUCTION :
La dictée vocale est sans doute l'un des outils les plus répandus du
Traitement Automatique des Langues (TAL), pourtant son invention ne date
que d'une cinquantaine d'années.
Exploitant la reconnaissance vocale, cet outil dont l'objectif est de faire
transcrire par une machine un texte oral à l'écrit n'a cessé de se
perfectionner au cours du temps.
Des problèmes majeurs se sont posés, et se posent encore, aux
chercheurs mais néanmoins, on constate une réelle avancée technologique
dans ce domaine. Il n'était pourtant pas évident que l'on pourrait un jour
parler à son ordinateur pour lui faire comprendre ce que l'on désire qu'il
effectue.
Mais des années de recherches, de physiques acoustiques et
d'informatique auront permis cet exploit : désormais il est quasiment
possible de contrôler son ordinateur à la simple aide de sa voix.
Si l'exploit est intéressant, la démarche qui a conduit à sa
réalisation l'est encore plus, c'est pourquoi nous nous intéresserons dans
un premier temps à l'historique de la reconnaissance vocale, puis nous
étudierons le mode de fonctionnement de cet outil quasi-linguistique et
enfin, nous verrons quelles sont les applications les plus courantes de la
dictée vocale de nos jours. I - HISTORIQUE Quelques dates clés
On peut résumer en quelques dates les grandes étapes de la reconnaissance
de la parole (cf Techniques de l'ingénieur, vol.H1 940, p.3) :
1952 : reconnaissance des 10 chiffres, pour un monolocuteur , par un
dispositif électronique câblé
1960 : utilisation des méthodes numériques
1965 : reconnaissance de phonèmes en parole continue
1968 : reconnaissance de mots isolés par des systèmes implantés sur gros
ordinateurs (jusqu'à 500 mots)
1969 : utilisation d'informations linguistiques
1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour
tester la faisabilité de la compréhension automatique de la parole continue
avec des contraintes raisonnables
1972 : premier appareil commercialisé de reconnaissance de mots
1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY
I et II et HWIM
1978 : commercialisation d'un système de reconnaissance à microprocesseurs
sur une carte de circuits imprimés
1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration)
spécifiques du traitement de la parole
1981 : système de reconnaissance de mots sur un circuit VLSI
1983 : première mondiale de commande vocale à bord d'un avion de chasse en
France
1985 : commercialisation des premiers systèmes de reconnaissance de
plusieurs milliers de mots
1986 : lancement du projet japonais ATR de téléphone avec traduction
automatique en temps réel
1988 : apparition des premières machines à dicter par mots isolés
1989 : recrudescence des modèles connexionnistes neuromimétiques
1990 : premières véritables applications de dialogue oral homme-machine
1994 : IBM lance son premier système de reconnaissance vocale sur PC
1997 : lancement de la dictée vocale en continu par IBM

1971 est une année charnière à double titre. D'abord, elle voit la
première réalisation commerciale en reconnaissance vocale : "le Voice
Command system" de J.J.W. Glenn et M.H. Hitchcok, appareil autonome qui
reconnaît de manière fiable 24 mots isolés après cinq cycles
d'apprentissage par le même locuteur. L'analyse du message est effectuée
par un banc de seize filtres ; chaque mot est représenté par huit
événements prélevés aux instants de plus grande variation interne du
message. Cette normalisation temporelle, ainsi que les traitements
d'apprentissage et de reconnaissance, sont confiés à un mini calculateur
incorporé.
Aux Etats-Unis, l'importance des recherches sur la parole a beaucoup
varié au cours des dernières années. A l'effort de recherche
particulièrement intensif correspondant au projet SUR (Speech Understanding
Research) de l'Arpa (Advanced Research Projects Agency), succède maintenant
un effort plus mesuré. Les systèmes mis alors au point font aujourd'hui
l'objet de recherches limitées (BBN), sont développés en vue d'applications
industrielles (Harpy), ont été commercialisés (VIP 100) ou ont été
abandonnés (Dragon).
En ex-URSS, les recherches dans ce domaine ont commencé très tôt et
restent à l'heure actuelle très actives. Mais à la différence des équipes
américaines qui ont développé rapidement d'énormes systèmes de
compréhension de la parole, les équipes soviétiques n'ont que très
récemment abordé l'étude des niveaux syntaxique et sémantique ; elles sont
à l'origine de l'utilisation de la technique de "programmation dynamique"
dont l'emploi s'est maintenant partout généralisé.
En France, les recherches ont démarré vers 1970, et plusieurs
laboratoires de recherches ont pu mettre au point différents systèmes de
reconnaissance vocale avec plus ou moins de succès, ces laboratoires
mettant l'accent sur le support de reconnaissance : mots isolés, syllabes,
grands vocabulaires...
La dictée vocale aujourd'hui 1) Une évolution récente
En septembre 1998, seuls les éditeurs IBM et Dragon Systems se
partageaient le marché français. Philips fut le premier à les rejoindre
avec Freespeech 98, maintenant en version 2000. Le géant hollandais avait
été l'un des tout premiers à montrer un système de reconnaissance vocale en
dictée continue, c'est-à-dire sans marquer de pause entre les mots, mais il
l'avait jusque-là réservé au marché professionnel. Et la société belge
Lernout & Hauspie vient de rendre disponible la version française de Voice
Xpress, deux ans après les versions anglaise et allemande. Décidément -
c'est le discours de toutes les équipes de développement - le français est
bien difficile à maîtriser. Quatre éditeurs sur le même secteur: un tel
regain de concurrence, en même temps qu'une meilleure maîtrise de la
technologie, a fait vertigineusement baisser les prix. Au point que les
versions de base sont aujourd'hui proposées à moins de 300 F TTC. Moins
chères que certains claviers ! Du gadget pour technoïde fortuné, la
reconnaissance vocale est devenue application grand public.
2) Des progrès remarquables
a. La dictée continue
Les dernières versions de dictée vocale autorisent une dictée en
continu. Et l'on peut souvent dicter à l'intérieur même de son traitement
de texte, voire créer des raccourcis de dictée. Bien pratiques, ces
véritables macrocommandes vocales évitent de dicter la totalité d'une
formule de politesse, par exemple, en la remplaçant par "politesse madame".
Les principales améliorations de ces nouvelles versions sont un temps
d'apprentissage largement raccourci pour ne jamais dépasser la dizaine de
minutes, et surtout un meilleur taux de reconnaissance. Pour y parvenir,
les éditeurs ont profité de l'augmentation de la puissance des machines
pour accroître la profondeur des calculs nécessaires et augmenter la taille
du vocabulaire directement accessible en cours de dictée. Le nombre de mots
se compte aujourd'hui en centaines de milliers contre quelques dizaines de
milliers pour les versions précédentes. Résultat, un processeur à 300 MHz
et 64 Mo de mémoire vive sont un minimum pour obtenir une vitesse de
reconnaissance suffisante et, surtout, profiter de l'ensemble des
fonctions, comme la dictée dans son logiciel de courrier électronique ou la
navigation à la voix sur Internet. N'oublions pas, en effet, que la
reconnaissance vocale repose exclusivement sur des calculs statistiques
très complexes de probabilité d'apparition d'un mot après un autre (méthode
du "bigramme") ou d'un mot après deux autres (méthode du "trigramme").
L'étude et la compilation d'énormes corpus de texte, plusieurs millions de
mots, permettent au système de pondérer les mots qu'il croit avoir reconnus
phonétiquement et de choisir, par exemple, l'expression "la voiture roule",
plus probable que "la voiture boule". La dictée continue ajoute encore à la
difficulté car le système doit déterminer l'emplacement des coupures entre
les mots. Le locuteur a-t-il prononcé "les poules aillées" ou "les
poulaillers" ? "Et laine" ou "Hélène" ? A ce petit jeu, c'est la version 4
de Naturally Speaking qui donne sans conteste les meilleurs résultats. Sur
un même texte, donné à transcrire à l'aide d'un lecteur de Mini Disc pour
que chaque logiciel travaille exactement sur la même dictée, il a