Stacks Image 1077

Large Internationalisation des Documents par Interaction avec l'Auteur

Objectif

Permettre à un auteur monolingue de rédiger des documents et de les faire traduire vers des langues qu'il ne connaît pas au moyen de dialogues de standardisation et de désambiguïsation interactive.

Type de projet

Projet interne de l'équipe (Laboratoire GETA [1988-1995], Équipe GETA du laboratoire CLIPS [1995-2004], Équipe GETALP du laboratoire LIG [2004-])

Participation, implication personnelle

  • Animation de l'équipe
  • Proposition d'architectures informatiques
  • Moteur de désambiguïsation interactive et linguiciel pour le français (LIDIA-1) et pour l'anglais (LIDIA-2 et LIDIA-3)

Résultats produits

  • Synthèse des travaux en traduction interactive.
  • Première maquette LIDIA-1 et version 1 d’un moteur de désambiguïsation interactive du français.
  • Définition et réalisation de la version 2 d’un moteur de désambiguïsation interactive de l’anglais (à ATR) intégré dans la maquette LIDIA-1.
  • Proposition d’une nouvelle architecture informatique et aide au développement des maquettes LIDIA-2 et LIDIA-3 manipulant des fichiers XML.
  • Proposition du concept de Document Auto-Explicatif avec Christian Boitet et première mise en œuvre avec AMAYA.

Maquette LIDIA-1

La maquette LIDIA-1 permettait la traduction d'un document HyperCard contenant des énoncés ambigüs du français vers l'anglais, l'allemand et le russe.
L'architecture linguistique mise en œuvre était fondée sur un transfert multiniveau.
La première architecture informatique de la maquette était complexe et fragile.

Désambiguïsation interactive et évaluation de la comprésensibilité des questions de désambiguïsation

Avec ATR-ITL (dans le cadre du projet MIDDIM [projet de 3 ans entre ATR et le CNRS], et d'un séjour post-doctral en tant qu'Associate Researcher) j'ai travaillé à
  • la reformulation de mes idées sur la désambiguïstation interactive en proposant et en implémantant un module de désambiguïsation interactive dans lequel on distingue une partie moteur et une partie linguicielle,
  • une ambiguïté est décrite par la co-occurrence de plusieurs schéma arborescents qui s'intancient sur le même segment du mot des feuilles des différentes analyses
  • une méthode de rephrasage est associée à chaque patron pour produire les items textuels du dialogue de désambiguÏsation
  • le processus de désambiguïsation se poursuit tant que toutes les ambiguïtés d'une phrase ne sont pas résolues produisant un arbre de questions
  • l'évaluation de la compréhensibilité des questions de désambiguïsation au moyen de deux expériences.

Maquette LIDIA-2

L’expérience C-STAR II nous a monté l’intérêt de faire communiquer des modules développés sur des plates-formes différentes, au moyen d’un serveur de communication, avec le protocole Telnet. Il semblait aussi raisonnable de développer un environnement d’accès aux services LIDIA portable d’une plate-forme à une autre.
Dans la nouvelle architecture informatique proposée en 2000, tous les composants logiciels qui interviennent dans la chaîne de traitement LIDIA communiquent à travers un serveur de communication auxquels ils sont connectés.
Un nouveau client LIDIA, manipulant des fichiers XML réalisé en Java et utilisant un module de désambiguïsation de l'anglais a été produit par Ghislain Gressard dans le cadre d'un stage ENSIMAG.
Un premier visualiseur de Document Auto-Explicatif a été réalisée par Eugénie Schoneck lors de son TER de Maîtrise.

Maquette LIDIA-3

La maquette LIDIA 3, réalisée dans le cadre du stage de master de recherche de Ali Choumane en collaboration avec l'équipe WAM nous a permis d'intégrer les services LIDIA au sein de l'éditeur XML AMAYA et de proposer une première visualisation de Document Auto-Explicatif.
Nous avons proposé un flot de travail dans lequel l'auteur peut poursuivre en parallèle l'édition et la traduction de son document (XHTML). Le document est doté d'un document compagnon qui contient les analyse multiples les arbres de désambiguïsation et les réponses aux questions. Le document édité et le document compagnon sont synchronisés.
Les réponses aux questions de désambiguïsation interactive sont utilisées pour produire le Document Auto-Explicatif.