Lundi 23 juin - Laboratoire d'Informatique de l'Université du Maine

Ecrire le document OWL qui représente une ontologie décrivant un
enseignement de modélisation ... ENTITY rdfs "http://www.w3.org/2000/01/rdf-
schema#">. ]>.

Part of the document


ASILA - RTP 14 Workshop 23-25 juin - La Bresse
Lundi 23 juin
Session 1 : Bilan « personnel » Tour de table, les participants exposant leurs travaux personnels et
leurs attentes : Emmanuel Schang (linguistique, Université d'Orléans, Emmanuel.Schang@univ-
orleans.fr). A partir de corpus anciens (corpus d'Orléans, 4,5 M mots) et
de corpus en cours (créoles portugais, langues de Guyane, projets IRD avec
le Burkina-Faso) se pose les problème de la linguistique de corpus, du
traitement de données moins artisanal, de la mise à disposition des
données. Quels outils ? Comment mettre à disposition les données
recueillies ? Faut-il inclure le visuel ? Qu'en est-il du droit en la
matière ?
Olivier Baude (linguistique, Université d'Orléans, baude@wanadoo.fr).
Participe à l'observatoire des pratiques linguistiques (DGLFLF), au groupe
de pilotage pour le traitement informatique de la langue, avec un travail
prioritaire sur les questions juridiques (archives, INA, BNF - tout ce qui
concerne le patrimoine). Mêmes questions que précédemment : peut-on
utiliser la même technologie pour gérer les corpus anciens et les corpus
nouveaux ?
Maria Caterina Manes Gallo. (psychologie, Université de Nantes,
mc.mg@9online.fr). Membre du comité de pilotage du RTP 14, développe des
projets sur la sémantique dans des corpus écrits et oraux. Intéressée par
les méthodologies développées dans des cadres différents.
Lukas Balthasar (linguistique, informatique, GRIC-ICAR,
lukas.balthasar@ens-lsh.fr). Travaille sur les interactions
(audio/vidéo), participe au projet ACI TTT corpus, notamment :
développement CLAPI.2 (descripteurs, gestion de droits d'accès),
conventions et logiciels de transcription (Praat, Clan, NITE tools,
etc.), développement du format de base CLAPI.2 (format Xi-NITE),
développement de convertisseurs (PraatXi-NITE/Clan/TASX, etc.).
Quelles conventions, quels logiciels, quels formats informatiques pour
quel type de représentation/transcription de données
linguistiques/audiovisuelles ? Quelles composantes/outils pour un
environnement de développement de corpus oraux ? Quels outils et quelles
méthodes d'exploitation pour les requêtes sur bases de données audio-
visuelles en linguistique (linguistique interactionnelle en
particulier) ? Quel peut être l'impact de l'informatisation de la
linguistique interactionnelle au niveau méthodologique ? Quels sont les
liens possibles entre Linguistique interactionnelle et Linguistique de
corpus ? Lorenza Mondada (linguistique, ICAR, depuis 2 ans, lorenza.mondada@ens-
lsh.fr). S'intéresse travail sur et à partir des corpus, dans une démarche
de terrain inspirée de l'ethnographie, ainsi qu'aux formats de
transcription et aux descripteurs de corpus, tout en s'interrogeant sur la
nature des phénomènes observables : sont-ils saisis par un enregistrement ?
sont-ils transcriptibles ? Les données se fabriquent selon des choix, alors
qu'une transcription reflète aussi d'autres choix. Mettre à disposition ne
signifie-t-il pas nécessairement éliminer des phénomènes ?.
Anne Lacheret (linguistique, IF-CRISCO, anne.lacheret@crisco.unicaen.fr).
Souci de faire partir le chantier, que ce soit avec des corpus existants ou
des corpus nouveaux (homme-homme, audio-vidéo...). Il faut déboucher sur un
projet qui doit être large (communication et dialogue, gestes) avec une
plate-forme Web pas nécessairement en un lieu unique. Différentes plates-
formes, avec des variantes (contenu, voire codage), peuvent être
développées en parallèle, si elles sont accessibles et partagées.
Organisation d'une Université d'été sur le sujet à Caen en 2004.
Jean-Jacques Girardot (informatique, Ecole des Mines de St Etienne,
girardot@emse.fr). Déjà impliqué dans le projet corpus, participe au projet
ACI TTT sur les corpus avec ICAR et le laboratoire ERIC (Lyon 2). Tout
particulièrement intéressé par la recherche d'information dans des
documents structurés (XML). Il faut rechercher un format pivot pour y
exercer les requêtes les plus signifiantes.
Serge Heiden (informatique-linguistique, ICAR, ENS-LSH/CNRS, sheiden@ens-
lsh.fr). Expérience en linguistique de corpus écrits : textes politiques,
médiévaux, etc. De la lexicométrie au data mining. Particulièrement
intéressé par les problème de descripteurs, de granularité, de formats de
textes (SGML, XML TEI). Les outils travaillant en XML sont-ils
applicables aux corpus oraux, qui présentent des phénomènes différents ?
Il est très difficile de parvenir à des formats communs de description
des phénomènes. Sur le plan juridique (patrimoine, droit de propriété,
protection de la vie privée), l'écrit est déjà très chargé, mais l'oral
peut dépasser l'écrit. Il faut construire des fiches sur les formats
d'outils (Xitools) et répertorier les formats, avec leurs avantages et
inconvénients, en tendant vers des passerelles entre outils. Chaque
utilisation d'un corpus suppose une nouvelle annotation : dans un tel
contexte, comment penser la mutualisation des outils ? Philippe Martin (linguistique-informatique, Paris VII,
philippe.martin@fnac.net). Depuis longtemps soucieux de préserver la
représentation et l'accès à la prosodie dans les corpus oraux, a développé
WinPitchPro, utilisé pour un corpus de 1,2 M mots dans le cadre d'un projet
européen, avec sortie XML, alignement syntaxique, unicode, et compatible
Transcriber. Travaille sur différentes langues (Italien, Espagnol,
Portugais, Français) de conversation, en relation avec le GARS (J.
Veronis). Il faut être très attentifs avec les questions juridiques : on ne
peut plus éditer quoi que ce soit sans les autorisations des locuteurs
intervenants, et les autorisations papiers signées ne sont pas forcément
légalement suffisantes. En fait de ce point de vue on est fragile car on
avance en faisant la loi.
Michel Jacobson (informatique, LACITO, jacobson@idf.ext.jussieu.fr).
Travaille sur des langues et des civilisations à tradition orale, c'est-à-
dire en général des langues minoritaires, parfois en danger et sans
écriture. Les données recueillies depuis 30 ans (un peu partout dans le
monde : Océanie, Népal...) comportent des enregistrements audio, des
annotations de ces derniers (transcriptions en API, des analyses en mots et
morphèmes des lexiques, etc.). Depuis 5 ans, ces données sont numérisées en
vue de leur pérennisation, en XML avec une DTD proche de la TEI (à l'heure
actuelle une centaine de contes, chants, dans une quinzaine de langues sont
disponibles sur le web). Les problèmes sont actuellement de trouver une
institution d'accueil pour la conservation et la diffusion (la BNF ?) et un
formalisme de normalisation pour les données (TEI ?) les méta-données
(OLAC ?) la diffusion des méta-données (OAI est-il un protocole qui fait
l'unanimité ?).
Jean-Yves Antoine (informatique, VALORIA, jean-yves.antoire@univ-ubs.fr).
S'intéresse au dialogue oral homme-machine, et à la communication assistée
par ordinateur pour handicapés. Dans ce cadre, les corpus oraux servent à
l'apprentissage et les besoins de corpus de dialogue oraux sont importants.
Il n'y a pas de politique française de collecte et de diffusion de corpus
de français (comme aux USA par exemple). Au VALORIA, on anonymise les
corpus pour qu'on ne puisse pas reconnaître les locuteurs, et on diffuse
librement les corpus (XML avec dtd de Transcriber) en prenant le risque
(transcription uniquement + signal sur CD avec convention de citation),
dans le but d'amorcer un cercle vertueux sur les corpus. En tant que
consommateurs, on a tous intérêt à faire avancer la normalisation. Dans le
cadre du projet techno-langue, dans des dialogues centrés sur une tâche,
travail sur un corpus de 0,2 M mots qui seront annotés morpho-
syntaxiquement, à partir de Cordial (l'idée des étiquettes GRACE est
pratiquée par plusieurs laboratoires en France).
Daniel Luzzati (linguistique, LIUM, luzzati@ium.univ-lemans.fr). Expérience
à la fois de la morphosyntaxe de l'oral et du dialogue homme-machine, avec
une observation (un corpus est un objet fabriqué, de la langue rendue
objet) et une question (est-ce possible avec le dialogue, où la langue est
partie prenante d'un processus davantage qu'un objet ?). Le fait est que
cela devrait exister depuis un certain temps et que c'est loin d'être le
cas, d'où l'urgence du propos, qui est de proposer un cadre et d'aider à la
mise à disposition du plus grand nombre de données et d'outils. Le cadre
peut en l'occurrence être à la fois ASILA (dont c'est la fin), et les RTP
14 et 38, pour lancer un nouveau projet orienté vers les corpus, tout comme
d'autres initiatives en cours (DGLFLF par exemple). Se pose en somme à la
fois un problème d'initiative et un problème de coordination.
Matthieu Quignard (informatique, LORIA, Matthieu.Quignard@loria.fr).
Antérieurement au GRIC, a notamment largement contribué à l'élaboration de
la base CLAPI. Centres d'intérêt : interactions médiatisées par
ordinateurs, apprentissages humain, production et analyse de traces.
Comment mettre des données de ce type en forme ? Quels standards pour la
diffusion des corpus (PDF, SMIL) ? Comment parvenir à une diffusion
efficace des corpus, et à leur intégration dans des documents ?
Christian Plantin (linguistique, ICAR, plantin@univ-l