GEOD
GEOD - 220, rue de la chimie - Bât C - 1er Etage - B.P. 53 - 38041 Grenoble Cedex 9 - plan d'acces
Téléphone : +33 4 76 51 46 27 et +33 4 76 63 56 51 - Télécopie : +33 4 76 63 55 52
Responsable : Jean-Francois SERIGNAT


GEOD
Accueil
Membres
Projets
Ressources
Publications
Photos
Stages
Divers
CLIPS
Accueil
Annuaire
Démonstrations
Plan d'accès

Groupe d'Etude sur l'Oral et le Dialogue

Le premier janvier 2007, l'équipe GEOD et l'équipe GETA ont fusionné pour fonder l'équipe GETALP du laboratoire LIG.

Voir le site de l'équipe GETALP pour plus d'information.

Le domaine de recherche de GEOD est celui de la parole et du dialogue, pour concevoir des logiciels d'interaction et de communication parlée et doter les systèmes d'une composante langagière fiable et performante.

Depuis plus d'une quinzaine d'années, les moyens de communication (téléphone mobile, Internet) et les média de diffusion électronique de l'information (émissions de radio et de télévision numériques) ont connu un essor sans cesse croissant. Dans le même temps, le progrès des techniques de traitement numérique de l'information et de la technologie des calculateurs a été gigantesque. Cette évolution a ouvert des perspectives prometteuses à de nombreuses applications dans le domaine de la communication orale homme-machine ou homme-homme médiatisée, mais aussi à des applications spécifiques dans le domaine médical comme la télésurveillance des malades à domicile (habitat intelligent). En parallèle, grâce à la facilité de stockage due en partie à des algorithmes de compression très efficaces, les corpus de documents audio et vidéo ne cessent de croître. Pratiquement toute information multimédia se trouve aujourd'hui disponible sous format numérique et son exploitation ouvre le champ à de nouvelles applications d'indexation et de recherche de documents par le contenu.

Dans ce contexte, la thématique de recherche de GEOD est centrée sur l'Interaction Orale, articulée autour de deux axes scientifiques principaux : Reconnaissance (parole, audio et locuteur) et Dialogue (modélisation et compréhension). Pour ces deux axes, subsistent encore un certain nombre de verrous liés à la généricité des modèles : cette caractéristique reste un objectif essentiel, situé au centre de nos préoccupations de recherche pour le long terme. Pour l'axe Reconnaissance, les efforts de recherche de GEOD pendant la période 2001-2005 ont porté sur deux sous thèmes : la réalisation de systèmes de reconnaissance multilingue pour la parole continue et l'amélioration de leur robustesse, l'exploitation de la parole et des sons comme composante de l'interaction multimodale dans les espaces perceptifs. Pour l'axe Dialogue, l'objectif a été le développement de systèmes de dialogue homme-machine multimodaux.

Télécharger le rapport d'activité :

GEOD entretient des relations privilégiées avec le laboratoire MICA (Multimedia, Informations, Communication et Applications), l'une des antennes à l'étranger du laboratoire CLIPS.



Reconnaissance robuste multilingue de la parole continue

Participants(**) :
L. Besacier (Resp.), B. Bigi, E. Castelli, N. Eveno, V-.B. Le, P. Mayorga-Ortiz, D. Moraru, Q-.C. Nguyen, J-.F. Serignat, T-.P. Tan, Q. Vu-Minh, D. Vaufreydaz

Mots-clés :
Reconnaissance de parole continue, robustesse, grand vocabulaire, modèle acoustique, modèle de langage, multilingue, transcription, transcription enrichie

Résumé :
Les activités de recherche de GEOD dans ce thème se sont concentrées sur le développement de modèles acoustiques multilocuteurs et de modèles de langage pour le système de reconnaissance automatique de parole continue en français du laboratoire. L'originalité réside dans l'approche qui consiste à "aspirer" un grand nombre de sites Web dans une langue donnée et à filtrer les données textuelles récupérées afin de les rendre exploitables pour calculer des modèles statistiques de langage. Une adaptation de cette méthodologie à des langues peu dotées marque une tendance vers le multilinguisme qui prend une importance de plus en plus grande dans ces recherches. Des applications à la langue vietnamienne, à la langue khmère et à l'espagnol-mexicain (castillan) ont été envisagées et ont permis d'obtenir des résultats très encourageants. Des extensions de ce thème de recherche, dans le sens d'une "transcription enrichie" (segmentation en locuteurs, détection de zones d'intérêt, détection de "jingles" audio,...) pour des applications de recherche d'information par le contenu dans les bases de données, ont aussi été menées dans le cadre de diverses participations à des campagnes d'évaluation internationales. Enfin, des travaux pour des applications en biométrie ont été conduits en tenant compte du caractère souvent multimodal du domaine.



Environnements perceptifs : la parole et les sons comme composante de l'interaction multimodale

Participants(**) :
J-.F. Sérignat (Resp.), L. Besacier, E. Castelli, S. Chaillol, D. Istrate, D-.D. Tran, D. Tuffelli, M. Vacher

Mots-clés :
Traitement du signal, détection, segmentation, classification des sons, espace perceptif, interaction

Résumé :
Dans ce thème sont décrits les travaux de recherche de GEOD sur la parole et sur les sons, dans le contexte applicatif des espaces perceptifs et plus particulièrement dans le cadre d'une coopération avec le laboratoire TIMC pour l'Habitat Intelligent pour la Santé (HIS). Dans les locaux de TIMC, un appartement (30m2) a été équipé pour devenir un HIS prototype. Divers algorithmes de détection et de classification des sons de la vie courante ont été développés et validés pour la détection de situations de détresse d'un patient sous télésurveillance médicale. De même, un modèle de langage pour le système de reconnaissance de parole de GEOD a été adapté pour la reconnaissance des appels de détresse dans cet environnement. Quelques développements pour des applications en "smart room" (salle de réunion) sont également présentés.



Développement de systèmes de dialogue H-M multimodaux

Participants(**) :
J. Caelen (Resp.), P. Dominguez, Y. Fouquet, S. Hollard, M. Kurdi, A. Lecomte, N-.H. Nguyen, A. Ouayouch, V. Popescu, V-.T. Tran, A. Xuereb

Mots-clés :
Dialogue HM, interaction HM, modèle de dialogue, négociation, acte de dialogue, attente en dialogue, évaluation automatique.

Résumé :
Dans ce thème sont décrits les travaux de recherche de GEOD sur le dialogue homme- machine. Les principales avancées se sont concrétisées autour de la théorie des jeux et de la théorie de la représentation du dialogue (SDRT = Segmented Discourse Representation Theory). L'analyse et l'exploitation de corpus se sont poursuivies pour étudier les attentes des locuteurs, leurs modes de compréhension, leurs comportements face à des agents conversationnels expressifs. Pour cela diverses situations de dialogue ont été simulées notamment dans le cadre du projet ACE (Agent Conversationnel Expressif). Enfin la méthode DCR(*) a été approfondie pour obtenir une procédure validée en évaluation automatique de systèmes de dialogue. Toutes ces recherches ont été centrées sur des domaines applicatifs apportés par le projet PVE (Portal Vocal d'Entreprise) dont le but est de développer des services de dialogue en parole naturelle pour la vie sociale de l'entreprise (par exemple organisation de réunions, d'agendas personnels, etc.). Une ouverture vers le dialogue à plusieurs locuteurs a été amorcée, ce qui place l'équipe sur un terrain original.




(*) Les tests DCR (Demande Contrôle Référence) comportent une demande (D) de l'utilisateur, un énoncé de contrôle (C) et une référence (R), issue de la comparaison entre D et C (thèse Ahafhaf, 2004).

(**) Les participants aux différents thèmes de recherche sont les membres de GEOD au 1er octobre 2005.




Contacter le Webmaster