GEOD
GEOD - 220, rue de la chimie - Bât C - 1er Etage - B.P. 53 - 38041 Grenoble Cedex 9
Téléphone : +33 4 76 51 46 27 et +33 4 76 63 56 51 - Télécopie : +33 4 76 63 55 52
Responsable : Jean-Francois SERIGNAT

Traduction de parole
Christian BOITET, Jean CAELEN, Jacques COURTIN
Joëlle COUTAZ (associée au projet)

Présentation générale

Le laboratoire CLIPS, réunit maintenant des équipes ayant des compétences en traduction automatique, reconnaissance de la parole, traitement de la langue, interfaces graphiques, qui permet à ses chercheurs de se lancer de façon crédible dans des recherches en "Traduction de parole", domaine qui est d'actualité au niveau international et qui présente de nombreuses retombées culturelles et technologiques.

Le projet présente plusieurs aspects liés entre eux :

Malheureusement, pour aussi prestigieux qu'il soit, le projet CSTAR II ne fournit aucune aide financière aux partenaires puisqu'il est dans ses statuts que chacun d'entre eux doit trouver les financements pour traiter sa langue. Les objectifs n'en sont pas pour autant moins ambitieux : il faut en 1999 démontrer un système de traduction croisée de parole pour le renseignement touristique par téléphone, un client devant organiser son voyage à l'étranger et ne parlant pas la langue de ce pays (il en est de même de l'agent qui lui fournit des renseignements). Ils peuvent cependant échanger quelques mots d'anglais en cas d'incompréhension totale.

On peut donc voir que d'un côté cette émulation internationale sera des plus bénéfiques mais que d'un autre côté elle pourrait être catastrophique si les résultats ne sont pas suffisants faute de moyens. En effet le problème majeur qui conditionne le succès du projet, est de réunir les forces nécessaires à sa réalisation en termes de matériel et de personnel.

Présentation détaillée

Le projet "Traduction de parole" est un projet à long terme qui vise à étudier tous les aspects de l'automatisation de la traduction de parole, allant des traitements totalement automatiques aux aides à la communication personnelle bilingue ou multilingue, en passant par divers degrés d'intégration des utilisateurs et du système.

1-a. Motivation et intérêt

Les services d'interprétation téléphonée sont aujourd'hui en pleine expansion, et les projections économiques dans le futur montrent que, comme pour la traduction de l'écrit, on ne pourra pas former assez d'interprètes compétents. La situation classique (exemple de Hertz et AT&T aux USA) est illustrée dans la figure suivante : un client appelle un agent, et la conversation est déroutée vers un interprète, qui prend alors en charge toute la conversation.

Dans le futur, on imagine d'introduire entre les interlocuteurs un système de traduction automatisée, terme qui est plus modeste que le rêve sans doute irréalisable de la traduction totalement automatique (en domaine ouvert, en parole continue, et en multilocuteur), et qui indique que les utilisateurs devront aussi aider le système (en lui parlant clairement et proprement, en le guidant, et en répondant à ses questions pour lever les ambiguïtés essentielles). L'interprète sera également aidé par le système, qui, par exemple, reconnaîtra les termes difficiles et affichera leurs équivalents "au vol".

Cette situation ne nécessitera plus qu'une assistance discontinue de l'interprète humain : les interlocuteurs utiliseront le système de traduction automatisée, et ne feront appel à l'interprète qu'en cas de défaillance ou d'imperfection du système. L'interprète les aidera, puis les remettra éventuellement en automatique. Ainsi, un seul interprète pourrait servir plusieurs conversations concomitantes. D'autre part, tout pourrait être multimodal : dans une dizaine d'années, on imagine que tout un chacun pourrait disposer d'un "communicateur personnel" (du genre Newton avec son et vidéo), et le client pourrait dialoguer de manière multimodale avec l'agent et l'interprète ! Quoiqu'il en soit, les informations textuelles et graphiques sur le service demandé seront certainement partageables par tous les intervenants et accessibles par la voix.

1-b. Problèmes scientifiques abordés

Pour parvenir à ces objectifs, il faudra cependant faire beaucoup de progrès, et certains sur des points fondamentaux, comme par exemple la conception de systèmes de reconnaissance de parole et de traduction fonctionnant en "simultané".

En effet les principaux problèmes de reconnaissance ou de traduction demeurent dès que l'on s'éloigne de situations calibrées et contraintes. C'est particulièrement le cas de la parole spontanée :

Pour résoudre ces problèmes, nous proposons une architecture modulaire dont les modules sont spécialisés pour traiter chacun un problème déterminé : robustesse vis-à-vis de sources multiples, filtrage de sources parasites, etc. Cette architecture est détaillée ci-dessus.

Les problèmes fondamentaux en traduction demeurent aussi lorsque le domaine du discours s'élargit et que l'on prend en plus le cadre du dialogue comme c'est le cas ici. Les problèmes qui s'ajoutent à la traduction proprement dites sont des problèmes d'analyse et de compréhension de la langue ainsi que des problèmes d'articulation du dialogue. Parmi ceux on notera les problèmes de référent, les ambiguïtés, les anaphores et la résolution des déictiques dans le dialogue.

Enfin une troisième classe de problèmes apparaît ici pour le choix des stratégies d'aide du dialogue. Le système doit non seulement traduire le " sens " de l'énoncé mais aussi doit redonner " l'intention " sous-jacente. Entrent ici en ligne de compte les forces illocutoires et perlocutoires c'est-à-dire la manière dont un énoncé doit être dit pour soit conseiller, soit suggérer, soit ordonner, soit implorer, etc.

Pour résoudre ces problèmes, la démarche empirique est la seule possible avant la formalisation : il s'agit d'abord d'observer les phénomènes, puis de les caractériser et enfin de les modéliser en contexte. Cela impose d'enregistrer de grands corpus pour obtenir une régularité significatives de ces phénomènes.

Le découpage du travail prévoit les deux étapes suivantes :

  1. mettre en place une plate-forme d'observation et d'expérimentation qui permettra d'étudier le comportement langagier et dialogique d'interprètes, réunir les corpus d'apprentissage pour la reconnaissance de la parole et les modèles de langage, pour ensuite concevoir et réaliser des outils d'aide à l'interprétariat,
  2. réaliser un démonstrateur de traduction de dialogues finalisés, à support multimedia mais essentiellement oraux, par intégration et adaptation de techniques de traitement de la parole et de traduction automatique bien dominées, mais séparément, à l'heure actuelle.

Les systèmes de traitement de parole et de traduction automatique nécessitent un travail expérimental considérable, d'acquisition et d'étiquetage de corpus, de construction de modèles phonétiques, de spécification et de construction de grammaires et de dictionnaires, ainsi que d'analyse de protocoles de dialogue. Le projet présenté comporte également une phase expérimentale importante dédiée à la capture de comportements humains, nécessitant l'équipement d'une plateforme adéquate. L'aspect expérimental est donc tout à fait caractéristique des travaux qu'il faut mener sur le terrain de la communication homme-machine en général et de la traduction de parole en particulier. Il constitue par ailleurs à la fois la spécificité et la raison d'être du centre MultiCom, dont une des fonctions sera de réunir des moyens pour l'expertise et l'expérimentation des systèmes de communication langagière et d'interaction personne-système. Il est donc naturel de mener ce projet aussi dans le cadre de MultiCom.

L'objet de cette demande dans le cadre de l'IMAG se justifie par le fait qu'il s'agit d'un projet scientifique d'une durée de 4 ans, novateur en France, et qui présente en retour pour l'IMAG une visibilité internationale.

La première partie du texte ci-après situe rapidement le projet CSTAR-II dans le contexte actuel, et indique les coopérations menées dans le passé avec certains des partenaires. La seconde partie détaille le plan de travail et les différentes étapes. Dans la troisième et dernière partie, nous donnons la composition de l'équipe CLIPS, qui fait apparaître une composante de recherche significative, et une composante technoscientifique évidente.

Situation du projet dans le contexte national et international

2.1. Historique : le projet CSTAR

ATR (Advanced Telecommunication Research) a été créé en avril 1986. Il s'agit d'une structure de droit privé, financée à 70% par le ministère des finances du Japon et à 30% par un consortium de 200 sociétés, au premier rang desquelles NTT et KDD. Les buts d'ATR ne sont pas seulement scientifiques. Il s'agit d'une opération de prestige, engagée dans le cadre de l'internationalisation, thème moteur officiel du Japon des années 80. C'est pourquoi ATR-ITL (Interpreting Telecommunications) s'est voulu le moteur d'un consortium international visant en particulier à réaliser des démonstrations spectaculaires et bien médiatisées à la fin de chaque projet.

CSTAR-I est le nom du consortium qui a monté les premières démonstrations publiques d'interprétation téléphonée en janvier 1993 dans le cadre du premier projet ATR-ITL. Les partenaires en étaient ATR, CMU (Pittsburgh, USA), Siemens (SNI, Munich), et l'université de Karlsruhe. CSTAR-II a été lancé dès le début du second projet d'ATR-ITL, en mai 1993, avec les mêmes partenaires. Il s'est élargi depuis à ETRI, un puissant institut coréen créé un peu à l'image d'ATR.

Ce consortium n'est pas une source de financement ni un projet dirigé par les Japonais. Son but majeur est de montrer que le projet d'ATR suscite un intérêt international. Il doit :

Les démonstrations consisteront en des négociations multilingues pour le renseignement touristique et la planification de séjours professionnels par téléconférence ou par des dialogues bilingues téléphonés. En ce qui concerne les dialogues finalisés, il pourra s'agir de conversations entre un agent et un client (renseignement sur un itinéraire, inscription à une conférence, ou réservation dans un hôtel).

2.2. Partenaires de CSTAR-II

Les partenaires doivent participer à la démonstration finale, prévue durant l'été 1999, et construire chacun un morceau de système. Les partenaires actuels sont ATR (Japon), CMU (USA), Université de Karlsruhe (Allemagne), ETRI (Corée) et IRST (Italie). On ne compte aucun organisme français en dehors de CLIPS qui maintenant se porte candidat mais qui doit avant tout se donner les moyens de réussir avant de se lancer dans la compétition. Sur ce point, les chances de CLIPS reposent donc essentiellement sur deux points :

  1. réunir les moyens pour réaliser le projet,
  2. faire fructifier les coopérations antérieures.

2.3. Coopérations antérieures des équipes de CLIPS

Le GETA (URA 1377 jusqu'au 1/1/96, équipe du CLIPS ensuite) a depuis longtemps une coopération active avec ATR à travers un projet ATR-CNRS de 3 ans, MIDDIM, qui s'est achevée en août 1996. Le GETA a déjà coopéré avec Siemens dans le cadre du projet Esprit Multilex (1991-1992), et du projet Eureka Eurolang (1992-1994). En ce qui concerne les autres groupes de recherche du laboratoire CLIPS, le groupe IIHM a des liens très étroits avec CMU, et le GEOD a depuis longtemps des coopérations avec la plupart des laboratoires français et européens travaillant en traitement de la parole et du dialogue. Le GEOD a participé en particulier au projet ESPRIT MULTIWORKS de 1989 à 1993 et a réalisé un système de reconnaissance de la parole qui sera utilisé dans ce projet. Le GETA et le GEOD travaillent respectivement avec le LATL de Genève (traduction) et avec l'IDIAP de Martigny et le LAIP de Lausanne (parole). Ces trois laboratoires et le CLIPS peuvent trouver les forces et le cadre de collaboration régional leur permettant de participer à un niveau égal avec les puissantes organisations américaines, japonaises et allemandes déjà membres de CSTAR II.

2.4. Situation de CLIPS par rapport au projet CSTAR-II

Le CLIPS souhaite devenir un partenaire du projet CSTAR-II, car les objectifs du projet CSTAR-II sont en accord total avec ceux que nous nous sommes fixés au sein du laboratoire CLIPS.

Pour le CLIPS, être partenaire du projet CSTAR-II implique de :

Le travail demandé à un partenaire pour les démonstrations de 1999 comprend la reconnaissance et la synthèse vocales d'une langue source dont il est responsable (français pour CLIPS, allemand pour Siemens, italien pour l'IRST, anglais pour CMU), ainsi que la traduction vers au moins une langue cible du groupe.

Travaux liés à la traduction

On envisage deux méthodes de traduction :

  1. une méthode de traduction "par transfert",,
  2. une méthode de traduction par "langage pivot",

L'état actuel du projet est que les deux méthodes seront utilisées dans CSTAR-II. Le LATL fournira un texte ou une représentation acoustique codée en français (à partir de l'anglais), tandis que Siemens et l'IRST fourniront une représentation pivot. Siemens et l'IRST pourront d'autre part accepter soit une traduction en italien et allemand, soit une représentation pivot. Le "pivot" choisi n'est pas complètement défini, mais il sera très proche de la représentation utilisée par CMU, et spécifique des tâches prévues pour les démonstrations (cf. supra).

Le GETA, en se fondant sur son logiciel LIDIA, traduira par "transfert multiniveau" vers l'allemand et l'anglais (et éventuellement vers l'italien), en passant par la Représentation Intermédiaire Multiniveau LIDIA (RIML), qui comprend un niveau d'acceptions interlingues. Nous transformerons la RIML en représentation pivot, et ainsi nous pourrons comparer la qualité des traductions obtenues par les deux méthodes. À notre connaissance, une telle comparaison des deux méthodes dans des situations comparables n'a encore jamais été faite, ce qui présente un très grand intérêt scientifique.

Travaux liés au traitement de la parole et du dialogue

En ce qui concerne le traitement de la parole, il s'agit de la reconnaissance et de la synthèse vocales du français, ainsi que de la gestion des dialogues. Le GEOD dispose d'un système de reconnaissance vocale pour le français, et d'un prototype de gestion de dialogues personne-système multimodaux. L'IDIAP de Martigny contribuera à la constitution du corpus d'entrainement du système de reconnaissance (500 locuteurs prononçant chacun un millier d'énoncés) et à l'entrainement des modèmes acoustiques et phonétiques. Le LAIP de Lausanne aura en charge la synthèse de la parole à partir des informations prosodiques fournies par le GEOD et des énoncés fournis par le GETA.

Dans le projet envisagé, le travail principal consiste en une adaptation du reconnaisseur au corpus envisagé et à plusieurs autres langues. Il faudra aussi étendre notre gestionnaire de dialogues à la gestion de dialogues personne-personne multimodaux médiatisés par le système.

La figure ci-dessous représente l'aboutissement du système de reconnaissance de la parole que nous comptons mettre en œuvre. Ce système doit être particulièrement robuste pour tolérer des conversations peu contraintes et le canal téléphonique : c'est pour cela que ce système comporte de nombreux modules de traitement acoustique en amont du moteur de reconnaissance. En aval, nous avons aussi prévu des procédures de rejet robustes et un niveau de connexion avec les modules de dialogue, émettant des séquences reconnues mais, et surtout, recevant les contraintes linguistiques pour filtrer et réduire la combinatoire linguistique en fonction de l'avancée du dialogue.

La synthèse vocale sera réalisée par le LAIP de Lausanne. Nous sommes compétents sur l'insertion de marques prosodiques à partir des informations syntaxiques, sémantiques et pragmatiques contenues dans les structures utilisées pour la génération.

Nous comptons adapter les modèles de dialogue que nous possédons déjà. Il faut noter qu'il s'agit ici de communication personne-personne médiatisée par le système, et non de communication entre une personne et un système. Par conséquent, il n'est pas nécessaire que le système comprenne réellement les contenus et les intentions des énoncés échangés. En domaine ouvert, c'est d'ailleurs tout à fait impossible en l'état actuel. Il suffit ici que les interlocuteurs se comprennent et que la machine ne rajoute pas des ambiguïtés supplémentaires.

En bref le travail le plus coûteux dans ce projet, concernant le traitement de la parole, est l'acquisition de corpus étendus de dialogues, leur étiquetage (acoustique, linguistique) et l'entrainement des divers systèmes et sous-systèmes de reconnaissance.

Plan de travail et différentes étapes

La première échéance technique est la réunion des 9-12 septembre 1996 à ATR pour laquelle la plate-forme d'expérimentation devra être constituée. Cela définit la première phase du projet qui s'appuie entièrement sur la demande de BQR-UJF et la justifiait. Il faudra ensuite expérimenter et développer pendant un peu plus de deux ans. C'est la phase 2. Enfin, la phase 3, en 1999, sera dédiée au montage des démonstrations, à la solidification des systèmes, et aux démonstrations elles-mêmes.

Phase 1 : 10/1996-10/1997, Mise en place de la plate-forme de capture de comportements humains

A- En septembre 1996, il faudra mettre en place la plate-forme de capture de comportements humains dérivée de la plate-forme NEIMO (projet IMAG) pour mettre en situation de dialogue les acteurs simulés afin d'acquérir les corpus de dialogue nécessaires aux études et développements ultérieurs. Pour cela, on mettra en place une technique de "magicien d'Oz" dans laquelle les compères simulent les fonctions du système qu'on souhaite construire : reconnaissance de la parole et traduction. La situation expérimentale sera la suivante :

B- En 1997, il faudra mettre en forme les composants disponibles pour les démontrer à la réunion d'étape au Japon en septembre 1997. Nous envisageons :

Il ne sera pas encore possible durant cette première phase d'intégrer la parole et la traduction dans une seule maquette.

Phase 2 : octobre 1997-décembre 1998, Réalisation des composants, expérimentation, intégration

Cette tâche est de loin la plus lourde de tout le projet. Elle a pour but de produire un démonstrateur de traduction de parole du français vers l'allemand, l'anglais et l'italien, pour des situations de négociation quadrilingue d'allocation de ressources par téléconférence, et de dialogues finalisés bilingues entre un client et un agent. Le vocabulaire sera limité à environ 2000 mots, et la connaissance des situations envisagées devrait permettre d'obtenir une qualité démontrant l'utilisabilité à terme de systèmes développés à partir de cette technologie.

Voici succinctement les tâches principales à effectuer :

Nous prévoyons environ 10 missions (5 missions de 2 personnes) pour suivre l'avancement du projet avec les partenaires européens.

Nous prévoyons pour chacune de ces deux années 2 séjours de 3 mois chez les partenaires européens, en tournant s'il y a plus de deux partenaires européens, et 1 séjour d'un mois au Japon.

Phase 3 : janvier-août 1999, Environnements de démonstration

Cette phase consistera à préparer les environnements informatiques nécessaires, qui peuvent être assez complexes, puisqu'il faut assurer le suivi du travail des différents systèmes, en sus de la gestion des dialogues multimodaux (par exemple, dans une démonstration où l'agent et le client pourraient partager une carte et un formulaire à l'écran). S'y ajouteront tous les problèmes de télécommunications, et l'intégration du total. Les démonstrations finales auront lieu en août-septembre 1999, sur les différents sites.