Groupe d'Etude
sur l'Oral et le Dialogue
Le domaine de recherche de GEOD est celui de la parole et du dialogue,
pour concevoir des logiciels d'interaction et de communication parlée et doter
les systèmes d'une composante langagière fiable et performante.
Depuis plus d'une quinzaine d'années, les moyens de communication (téléphone mobile,
Internet) et les média de diffusion électronique de l'information (émissions de radio et de
télévision numériques) ont connu un essor sans cesse croissant. Dans le même temps, le
progrès des techniques de traitement numérique de l'information et de la technologie des
calculateurs a été gigantesque. Cette évolution a ouvert des perspectives prometteuses à de
nombreuses applications dans le domaine de la communication orale homme-machine ou
homme-homme médiatisée, mais aussi à des applications spécifiques dans le domaine médical
comme la télésurveillance des malades à domicile (habitat intelligent). En parallèle, grâce à la
facilité de stockage due en partie à des algorithmes de compression très efficaces, les corpus
de documents audio et vidéo ne cessent de croître. Pratiquement toute information multimédia
se trouve aujourd'hui disponible sous format numérique et son exploitation ouvre le champ à
de nouvelles applications d'indexation et de recherche de documents par le contenu.
Dans ce contexte, la thématique de recherche de GEOD est centrée sur l'Interaction
Orale, articulée autour de deux axes scientifiques principaux : Reconnaissance
(parole, audio et locuteur) et Dialogue (modélisation et compréhension).
Pour ces deux axes, subsistent encore un certain nombre de verrous liés à la généricité des
modèles : cette caractéristique reste un objectif essentiel, situé au centre de nos
préoccupations de recherche pour le long terme. Pour l'axe Reconnaissance, les efforts de
recherche de GEOD pendant la période 2001-2005 ont porté sur deux sous thèmes :
la réalisation de systèmes de reconnaissance multilingue pour la parole continue et
l'amélioration de leur robustesse, l'exploitation de la parole et des sons comme composante
de l'interaction multimodale dans les espaces perceptifs. Pour l'axe Dialogue, l'objectif a été le
développement de systèmes de dialogue homme-machine multimodaux.
Télécharger le rapport d'activité :
GEOD entretient des relations privilégiées avec le laboratoire
MICA (Multimedia, Informations, Communication et Applications),
l'une des antennes à l'étranger du laboratoire CLIPS.
Reconnaissance robuste multilingue de la parole continue
Participants(**) :
L. Besacier (Resp.), B. Bigi,
E. Castelli, N. Eveno, V-.B. Le, P. Mayorga-Ortiz, D. Moraru, Q-.C. Nguyen,
J-.F. Serignat, T-.P. Tan, Q. Vu-Minh, D. Vaufreydaz
Mots-clés :
Reconnaissance de parole continue, robustesse, grand vocabulaire, modèle
acoustique, modèle de langage, multilingue, transcription, transcription enrichie
Résumé :
Les activités de recherche de GEOD dans ce thème se sont concentrées sur le
développement de modèles acoustiques multilocuteurs et de modèles de langage pour le
système de reconnaissance automatique de parole continue en français du laboratoire.
L'originalité réside dans l'approche qui consiste à "aspirer" un grand nombre de sites Web
dans une langue donnée et à filtrer les données textuelles récupérées afin de les rendre
exploitables pour calculer des modèles statistiques de langage. Une adaptation de cette
méthodologie à des langues peu dotées marque une tendance vers le multilinguisme qui prend
une importance de plus en plus grande dans ces recherches. Des applications à la langue
vietnamienne, à la langue khmère et à l'espagnol-mexicain (castillan) ont été envisagées et ont
permis d'obtenir des résultats très encourageants. Des extensions de ce thème de recherche,
dans le sens d'une "transcription enrichie" (segmentation en locuteurs, détection de zones
d'intérêt, détection de "jingles" audio,...) pour des applications de recherche d'information par
le contenu dans les bases de données, ont aussi été menées dans le cadre de diverses
participations à des campagnes d'évaluation internationales. Enfin, des travaux pour des
applications en biométrie ont été conduits en tenant compte du caractère souvent multimodal
du domaine.
Environnements perceptifs : la parole et les sons comme composante
de l'interaction multimodale
Participants(**) :
J-.F. Sérignat (Resp.),
L. Besacier, E. Castelli, S. Chaillol, D. Istrate, D-.D. Tran, D. Tuffelli, M. Vacher
Mots-clés :
Traitement du signal, détection, segmentation, classification des sons, espace
perceptif, interaction
Résumé :
Dans ce thème sont décrits les travaux de recherche de GEOD sur la parole et sur les
sons, dans le contexte applicatif des espaces perceptifs et plus particulièrement dans le cadre
d'une coopération avec le laboratoire TIMC
pour l'Habitat Intelligent pour la Santé (HIS).
Dans les locaux de TIMC, un appartement (30m2) a été équipé pour devenir un HIS prototype.
Divers algorithmes de détection et de classification des sons de la vie courante ont été
développés et validés pour la détection de situations de détresse d'un patient sous
télésurveillance médicale. De même, un modèle de langage pour le système de reconnaissance
de parole de GEOD a été adapté pour la reconnaissance des appels de détresse dans cet
environnement. Quelques développements pour des applications en "smart room" (salle de
réunion) sont également présentés.
Développement de systèmes de dialogue H-M multimodaux
Participants(**) :
J. Caelen (Resp.),
P. Dominguez, Y. Fouquet, S. Hollard, M. Kurdi, A. Lecomte, N-.H. Nguyen,
A. Ouayouch, V. Popescu, V-.T. Tran, A. Xuereb
Mots-clés :
Dialogue HM, interaction HM, modèle de dialogue, négociation, acte de dialogue,
attente en dialogue, évaluation automatique.
Résumé :
Dans ce thème sont décrits les travaux de recherche de GEOD sur le dialogue homme-
machine. Les principales avancées se sont concrétisées autour de la théorie des jeux et de la
théorie de la représentation du dialogue (SDRT = Segmented Discourse Representation
Theory). L'analyse et l'exploitation de corpus se sont poursuivies pour étudier les attentes des
locuteurs, leurs modes de compréhension, leurs comportements face à des agents
conversationnels expressifs. Pour cela diverses situations de dialogue ont été simulées
notamment dans le cadre du projet ACE (Agent Conversationnel Expressif). Enfin la méthode
DCR(*) a été approfondie pour obtenir une procédure validée en évaluation automatique de
systèmes de dialogue. Toutes ces recherches ont été centrées sur des domaines applicatifs
apportés par le projet PVE (Portal Vocal d'Entreprise) dont le but est de développer des
services de dialogue en parole naturelle pour la vie sociale de l'entreprise (par exemple
organisation de réunions, d'agendas personnels, etc.). Une ouverture vers le dialogue à
plusieurs locuteurs a été amorcée, ce qui place l'équipe sur un terrain original.
(*) Les tests DCR (Demande Contrôle Référence)
comportent une demande (D) de l'utilisateur, un énoncé de contrôle
(C) et une référence (R), issue de la comparaison entre D et C (thèse
Ahafhaf, 2004).
(**) Les participants aux différents thèmes de
recherche sont les membres de GEOD au 1er octobre 2005.