GEOD
GEOD - 220, rue de la chimie - Bât C - 1er Etage - B.P. 53 - 38041 Grenoble Cedex 9
Téléphone : +33 4 76 51 46 27 et +33 4 76 63 56 51 - Télécopie : +33 4 76 63 55 52
Responsable : Jean-Francois SERIGNAT

DALI - (Dialogue Adaptatif : Langue et Interaction)
Rapport Final du projet

Responsable : Gérard Sabah

LIMSI - BP 133 - 91403 ORSAY CEDEX - FRANCE

Téléphone : (33) 01 69 85 80 03

Télécopie  : (33) 01 69 85 80 88

Courrier électronique : gs@LIMSI.fr

Équipes participantes

Rappel des objectifs du projet

L'évolution actuelle des applications informatiques s'accompagne d'une modification profonde des modalités d'interaction homme-machine. Aux modes de communication désormais classiques (suites de menus ou de formulaires, de grilles, séquences de questions-réponses?) se substitue un véritable dialogue coopératif finalisé. La langue devient ainsi un outil fondamental et irremplaçable pour la communication.

Différents travaux préalables des équipes participant au projet DALI ont abouti à plusieurs modèles ayant des caractéristiques communes (ce qui les rend tout à fait compatibles) et des caractéristiques spécifiques, dues aux différences des contextes de développement (objectifs scientifiques poursuivis, type de langage et de reconnaissance utilisé, application?). Il convient toutefois de remarquer qu?aujourd?hui aucun de ces modèles n?englobe l?ensemble des possibilités d?un véritable dialogue.

Compte tenu des acquis antérieurs rappelés ci-dessus, les objectifs du projet sont :

L'objectif à plus long terme sera de définir des interfaces adaptables qui accroissent leurs connaissances grâce au dialogue lui-même, ce qui nécessite un dialogue qui ne soit pas seulement une aide pour exécuter une tâche au mieux, mais qui construise des objectifs et des représentations du monde en commun avec l?utilisateur. Pour atteindre ces buts les tâche et sous-tâches suivantes ont été définies (entre parenthèses les équipes participantes) :

1. Gestion du dialogue et planification

Sous-tâche 1.1. Modèles structuraux de dialogue (LIMSI, INPG, IRISA)

Sous-tâche 1.2. Références et modèles mentaux (CRIN, IRIT, LIMSI)

Sous-tâche 1.3. Vers un modèle général (CRIN, INPG, IRISA, IRIT, LIMSI)

2. Modèle de tâche et d'utilisateur

Sous-tâche 2.1. Modèle de la tâche (INPG, IRISA, LIMSI, CRIN)

Sous-tâche 2.2. Modèle de l'utilisateur (CRIN, IRISA, LIMSI)

3. Étude des phénomènes de référence Référence

Sous-tâche 3.1. Étude de quelques cas de références (CRIN, INPG, IRISA, IRIT, LIMSI)

Sous-tâche 3.2. Le cas particulier des références spatio-temporelles (CRIN, IRIT, LIMSI)

4. Amélioration de la robustesse dans le dialogue homme-machine

Sous-tâche 4.1. Méthodes spécifiques de correction (IRISA, IRIT, LIMSI)

Sous-tâche 4.2. Pragmatique et robustesse (LIMSI, INPG, CRIN)

5. Architecture des systèmes (LIMSI, INPG, IRISA)

6. Lexique, informations à considérer et structuration

Sous-tâche 6.1. Mots grammaticaux (IRIT, LIMSI, INPG, CRIN)

Sous-tâche 6.2. Mots pleins  (IRIT, LIMSI, INPG, CRIN)

Globalement, les relations entre ces différents aspects sont illustrées par la figure ci-dessous, qui montre que les résultats obtenus sur chacun de ces points devaient être validés sur des maquettes de laboratoire dans le cadre d'applications tests.


Synoptique du projet DALI

Par ailleurs, afin de veiller à la convergence de ces différents travaux, des actions inter-tâches avaient également été mises en place en cours du projet ; elles concernaient :

La planification. Il s'agit de savoir quels mécanismes de planification sont nécessaires dans l'ensemble des modèles de dialogue, s?il s'agit d'un seul mécanisme appliqué à plusieurs données différentes, ou de plusieurs processus distincts, à quels endroit ils sont employés, pour atteindre quels buts?

La représentations des buts. Dans quelle mesure les techniques de planification ci-dessus dépendent-elles des formalismes de représentation des buts à atteindre ? Ces formalismes sont-ils identiques pour tous les types de buts ; quels sont, selon les circonstances, ceux qui sont les plus adaptés ??

La comparaison des structures. La tâche 1 propose des structurations de dialogue d'ordres divers. Certains sont plus ou moins fondés sur les modèles développés dans la tâche 2 ; la tâche 3 propose une structure du discours en liaison étroite avec les résolutions de références. Il semble donc indispensable d'étudier de plus près les relations entre ces diverses structures : quelles informations trouve-t-on dans l'une et non dans l'autre, quels sont leurs points communs, leurs différences ; quels liens avec le type d'application envisagé ??

Le rôle du lexique. Différents modèles sont proposés dans les différentes tâches (modèles de dialogue, modèles de tâche, modèles d'utilisateur?). Quelles informations ces modèles doivent-ils chercher dans le lexique ? Ce dernier doit-il contenir toutes les connaissances utiles à ces modèles ou doit-il être adapté (adaptable ?) à chaque application ?

De même que pour les applications, ces actions inter-tâches n?ont pu être menées à bien, cela étant essentiellement dû au fait que des contraintes d'ordre budgétaire ont amené le Ministère à ne pas tenir ses engagements quant au financement promis : seul le premier versement (correspondant aux six premiers mois) avait été effectué, après environ quinze mois de travail. On sait, par ailleurs, ce qu'il en est de la réalité des budgets des laboratoires (je n'insisterai pas ici sur gels et ponctions de divers ordres que les dernières années ont vu passer?) et l'on comprendra aisément qu'il ne pouvait être question d'obtenir des crédits supplémentaires venant des soutiens de base CNRS ou universitaires. Cela eut l'effet d'interrompre le travail dans Dali au bout d'un an, les missions et le fonctionnement nécessaires ne pouvant être assurés par les laboratoires eux-mêmes. Courant 1996, le reliquat du budget qui nous était dû nous fut enfin attribué, mais il est clair qu?après une telle interruption, les travaux ne pouvaient continuer comme si de rien n?était? Nous fîmes néanmoins notre possible pour synthétiser les travaux liés à la thématique de DALI qui se sont poursuivis dans chacun des laboratoires impliqués, ce dont rend compte le présent rapport.

Description des tâches

Tâche 1 : Gestion de dialogue et planification (responsable Bertrand Gaiffe)

La tâche "gestion de dialogue et planification" s'était fixé comme objectif, au début du projet Dali d'aller vers un modèle de gestion du dialogue commun aux équipes participantes. Chacune des équipes utilise en effet des modèles différents pour répondre à des besoins eux aussi différents. Il nous a donc semblé pertinent, dès le début du projet d'identifier à la fois les différents modèles utilisés et les besoins spécifiques ayant conduit à leur choix ou à leur conception. Une deuxième étape a ensuite consisté en exposés permettant d'expliciter chacune des approches plus en profondeur. Ce rapport tentera de faire une synthèse des approches des équipes participantes étant entendu que comme toute autre composante d'un système de dialogue homme-machine, la gestion du dialogue est nécessairement intriquée aux autres fonctionalités. Le fait qu'une partie des réunions de travail de la tâche "gestion de dialogue et planification" et de la tâche "modèles de tâche et d'utilisateur" aient eu lieu conjointement l'illustre d'ailleurs.

1. Les éléments de structure du dialogue

Le projet DALI dans son ensemble vise à la gestion de dialogues finalisés. On suppose donc non seulement que l'utilisateur dialogue avec le système pour réaliser une tâche mais que cette tâche relève du domaine de compétence du système. La notion de tâche est donc l'un des éléments de structuration du dialogue. Cependant, et ce point est une difficulté pour toutes les approches de la structuration du dialogue, s'il est en général facile de structurer un dialogue a posteriori par la tâche, l'expoitation et la détection de cette structure au cours même du dialogue est plus difficile. Sur cet aspect, on notera en particulier le travail de Cécile Balkanski qui s'attache à la description de marqueurs linguistiques d'intention.

Le deuxième aspect de structure du dialogue dépasse le caractère finalisé et se transcrit en termes de paires adjacentes (telles que question/réponse) ou de façon plus générale en termes d'interventions et d'échanges.

Enfin, les chaînes référentielles liant les reprises anaphoriques établissent une structure du dialogue. Cette structure va de la simple co-référence (liant entre eux des énoncés par les objets mentionnés qui leur sont commun) jusqu'à la gestion du thème du dialogue.

Certaines des approches mentionnées dans ce rapport modèlisent directement ces sources de structure. Cela conduit à de systèmes efficaces et prédictifs (il est en particulier important de noter que le caractère prédictif des modèles employés est une condition indispensable de systèmes pour lesquels l'utilisateur s'exprime par oral). Les autres approches tentent d'expliquer ces éléments par des causes plus profondes.

2. Ce qui engendre les structures

La tâche "modèles de tâche et d'utilisateur" a établi une distinction entre des modèles de tâche explicites et des modèles de tâche implicite. D'une façon un peu brutale, cette distinction recouvre la différence entre des systèmes que l'on pourrait qualifier "d'outils" et des systèmes de dialogue qui se veulent des "partenaires". Dans le premier cas de figure, le modèle du dialogue se ramène presque uniquement à un état dans l'application sous-jacente, dans le second au contraire, le système doit faire face à des buts de l'utilisateur non directement associés pour lui à des actions. Les causes sous-jacente à la structure du dialogue sont alors celles de buts et d'intentions de la part à la fois du système et de l'utilisateur. Dans cette lignée, les modèles et techniques employés relèvent de la planification, les actes de langage étant alors considérés comme des actions avec des pré et post-conditions. Un intermédiaire possible étant la description d'une algèbre des buts (cf : le thème tâche et planification). On notera qu'en termes non plus seulement de description du dialogue mais de prise d'initiative de la part du système, cela a conduit Jean Caelen a proposer que le système demande à l'utilisateur son but de plus haut niveau afin de guider le système.

Une seconde cause de structure étudiée en particulier par Nadine Ozkan et Jean Caelen est liée à la notion de devoir engendré par la relation qui s'établit entre les interlocuteurs. Ainsi, plutôt que de modèliser uniquement les actes de langage et les actions effectuées, cette approche emploie une logique déontique (i.e des devoirs et pouvoirs). A titre d'exemple, une question modèlisée par un faire-faire-savoir engendre chez l'interlocuteur un devoir faire-savoir qui, si les conditions nécéssaires sont réalisées, débouche sur un faire-savoir.

Enfin, les structures employées pour résoudre les expressions référentielles se combinent et permettent de décrire une structure un peu plus fine que les simples chaînes de référence. Nous reviendrons sur ce point avec la notion de cadre de référence.

3. Les approches des équipes participantes

La description qui précède est évidement trop brutale dans sa façon d'isoler les structures et leurs causes. En pratique, si chacune des approches mise en oeuvre par les participants au projet privilégie un point particulier, il va de soi que la structure de la tâche, la structure des échanges et la structure référentielle intéragissent. Les choix motivant l'utilisation d'un modèle ou d'un autre relèvent de considération théoriques (provenant de la linguistique, de la psychologie, de l'ergonomie ou de la sociologie) cependant, certains modèles s'avèrent mieux adaptés en regard de considérations liées aux supports du dialogue (écrit, oral ou multi-modal) et de considérations liées à la nature de l'application interfacée par le dialogue (commande d'une application, dialogue de conception ou dialogue de renseignement). Afin donc de recenser les approches des équipes participantes et les conditions dans lesquelles les modèles sont exploités, une grille a été établie en commun et renseignée par chaque équipe.

Cette grille fait apparaître 3 classes d'applications : outre les applications de recherche d'informations et de commande est ainsi apparue la nécessité de distinguer les applications de conception (en architecture ou en électronique par exemple). La raison de cette distinction supplémentaire apparaît particulièrement en ce qui concerne le caractère implicite de la tâche (le système ne connaît pas a priori le but le l'utilisateur au delà des outils mis à sa disposition).

Par ailleurs, les approches fondées sur la planification et les modalités (savoir, devoir...) sont utilisées essentiellement par les équipes qui travaillent sur le dialogue de commande et de conception alors que les approches plus linguistiques (modèle genevois) sont employées par les équipes qui travaillent sur le dialogue de renseignement. Le cas limite étant d'ailleurs celui de l'IRISA qui utilise le modèle genevois dans un système dédié au renseignement et une approche fondée sur la planification dans un système de dialogue de commande. Ceci me semble d'ailleurs assez naturel compte tenu du caractère probablement plus abstrait des référents dans le dialogue de renseignement.

Cette différence entre applications de renseignement et de commande se reflète également dans la structure de l'historique du dialogue employé pour résoudre les références anaphoriques et les ellipses. Ainsi, dans les dialogues de commande, l'historique est généralement centré sur les objets manipulés (par le biais de schémas d'activité et de schéma des objets, de buts instanciés par les objets et d'espace attentionnel ou de schémas de référence liés aux objets) ; dans les dialogues de renseignement, on a plutôt affaire à des noeuds liés au thème et à l'analyse syntaxique par la grammaire de dialogue.

Dans la mesure où certaines approches, en particulier linguistiques, si elles offrent une bonne description de dialogues a posteriori, posent des problèmes quand à la prévision du type d'énoncé suivant, nous posions ensuite la question de l'anticipation dans chaque approche. Il est ici clair que le besoin de prédictibilité est d'autant plus fort pour la gestion de dialogue oraux. Dans les approches structurelles (fondées sur les actes de langage ou de dialogue) ou fortement ancrées sur la structure de l'application, cette prédictibilité émane d'un raffinement des catégories. En termes de bilan sur ce point, c'est donc de façon plus ou moins directe sur la structure de l'application que repose essentiellement la prédictibilité. Notons tout de même que, dans les dialogues de conception une stratégie possible est de provoquer une rupture de la structure du dialogue (par une prise d'initiative du système) pour éviter qu'une incompréhension durable ne s'installe. Ce point semble d'ailleurs lié à l'impossibilité pour l'utilisateur dans ce type de tâche de respecter de façon figée un plan conçu par lui ou par le système.

Enfin, les questions des limites actuelles des approches et des points durs de recherche étaient également posées.

Ce préalable nous a permis d'aller au delà d'une simple description des modèles indépendament de ce qu'on pourrait appeller leur mode d'emploi. Cependant, dans la mesure où la grille proposée visait à décrire des approches complètes de la modélisation du dialogue il nous semblait important de continuer le travail en :

En particulier, sur ce dernier point, Geneviève Caelen, spécialiste de la prosodie s'est jointe à notre groupe. L'hypothèse étant que la prosodie accompagne les structures linguistiques et pragmatiques. En particulier la prosodie semblerait pouvoir apporter des informations quand à la nature séquentielle ou hiérarchique du lien entre énoncés. Une des questions étant de savoir si ce lien est directement superposable aux liens établis par la tâche : but frère du précédent ou sous-but.

4. Les approches de façon plus détaillée

La grille de description nous a fourni un préalable à une meilleure compréhension pour les réunions et exposés suivants. En particulier, cela me semble avoir été profitable pour juger des possibilités d'intégration dans chacune des équipes des propositions des exposants.

  1. L'approche du CLIPS : de l'étude des dialogues homme-homme au dialogue homme-machine
  2. Pour le CLIPS, le dialogue doit être vu comme un processus visant à maximiser l'accord entre les interlocuteurs. Sa représentation est donc commune aux interlocuteurs, à charge pour chacun des agents participants (humain ou machine) de prendre en compte les désaccords observés de la part de son interlocuteur et de faire disparaître ces désaccords. Cette volonté de convergence de la part des participants est du moins définitoire du dialogue coopératif et finalisé.

    Dès lors, le contrôle du dialogue apparaît à deux niveaux d'échelle :

    - au niveau global, il s'agit d'arriver à la réalisation d'une ou plusieurs tâches. Les stratégies mises en oeuvre visent donc à l'explicitation des tâches et donc à la construction de thèmes communs. La contrepartie évaluative permettant de contrôle est donc fondée sur la progression dans les tâches.

    - au niveau local, il s'agit de gérer les tours de parole et donc d'associer à un énoncé ses sens locutoire, illocutoire et perlocutoire. On anticipe alors sur le prochain acte et on engendre la réponse. On a donc affaire à une généralisation de la notion d'échange : à partir d'un énoncé initiatif, la stratégie vise à demeurer dans un espace de convergence.

    La modèlisation associée permet d'envisager de manière uniforme les actions "physiques" sur l'application et les actes de langage. On distingue ainsi des modalités effectives permettant pour certaines d'entres elles l'anticipation d'un effet sur soi ou sur autrui. Les modalités effectives définies sont :

    - Faire

    Qui correspond à une action directe sur le monde de référence des interlocuteurs. Typiquement l'interface de l'application commandée. Cette modalité permet de gérer les niveaux de description de la tâche depuis l'action "immédiate" jusqu'aux sous-tâches et tâches.

    - Faire-Faire

    Qui correspond à l'anticipation de la précédente. Il s'agit alors d'une action indirecte (via l'interlocuteur) sur le monde de référence. Bien entendu, là encore les différents niveaux de description de la tâche entrent en jeu.

    - Faire-Savoir

    Qui correspond à une action directe sur autrui. Cette fois, outre la possibilité de faire-savoir l'état d'avancement de la tâche s'ajoutent des faire-savoir possibles concernant la planification sur la réalisation de la tâche, la répartition de sous-tâches entre soi et autrui, et l'évaluation positive ou négative.

    - Faire-Faire-Savoir

    Qui est à Faire-Savoir ce que Faire-Faire est à Faire, à savoir une action indirecte sur soi via autrui.

    Sur ces modalités effectives une étude de corpus à visée actionelle entre êtres humains avec pour contraintes supplémentaires que le but soit connu de l'un des interlocuteurs et que les rôles soient contraints a été menée. Cette étude permet d'observer des paires adjacentes telles que :

    FF F action

    FFS FS réponse

    FS nil acceptation implicite

    F nil évaluation positive implicite

    F FS évaluation positive explicite

    Ces paires adjacentes correspondent aux situations d'avancement du dialogue. Les ruptures hors de ces paires critiques correspondant à une réponse observée différente de la réponse attendue.

    Afin de modéliser ces attentes, une structure explicative a alors été définie. Celle-ci s'appuie sur une logique intégrant des modalités :

    Cognitives : Savoir, croire

    Déontiques : Devoir, Pouvoir

    Volitives : Vouloir

    Les domaines englobés par ces modalités concernent alors la tâche et les aspects de planification et de répartition de cette tâche entre interlocuteurs pour la première, et les modalités effectives (Faire, Faire-Faire, Faire-Savoir et Faire-Faire-Savoir) pour les deux dernières.

  3. L'approche du LIMSI (groupe communication parlée)
  4. Dans le cadre de dialogues à l'oral, le modèle de dialogue utilisé doit être prédictif en termes d'hypothèses de reconnaissance de parole. Dans ce cadre particulier, le groupe communication parlée du LIMSI utilise un modèle de dialogue défini par un automate dont l'alphabet est composé de types d'actes de langage. Le module de gestion du dialogue est alors alimenté par :

    - cet automate,

    - un modèle de la tâche motivant le dialogue,

    - un modèle de l'utilisateur,

    - le contexte courant du dialogue.

    Chacun des modèles est connecté au module de dialogue d'une part et à un "unificateur de prédictions" qui permet de guider de façon descendante l'analyseur syntaxico-sémantique y compris en termes de référence (aspects pragmatiques).

    La partie ascendante du système (du signal de parole vers le module de dialogue) alimente le contexte de dialogue.

    Dans la mesure où il s'agit de dialogues finalisés et où le système doit garder autant que possible l'initiative lorsqu'un sous-dialogue est engagé (de telle façon que le guidage de la reconnaissance de parole soit assuré), la modélisation de la tâche inclut des actions liées au dialogue. Une action de la tâche est ainsi définie comme comprenant :

    - des conditions (contenant des parties variables)

    - des instructions (messages destinés à l'utilisateur ou à l'application).

    - des actions effectives (à effectuer dans l'application)

    D'une certaine façon, le modèle du dialogue dans ce cadre est donc découpé en un modèle fondé sur les actes de langage (peu prédictif) et un contexte correspondant à une instanciation partielle de la tâche.

  5. L'approche du LIMSI (groupe Langage et Cognition)
  6. L'approche de l'équipe Langue et Cognition est quant à elle fondée sur le modèle genevois de structuration du dialogue en échanges, interventions et actes de langage. Le modèle genevois, s?il permet de structurer a posteriori le dialogue, est peu prédictif au cours du dialogue (du moins si on se limite à une description de la structure par une simple grammaire). Un module de gestion du thème intervient donc pour contraindre les réécritures possibles dans cette grammaire rendant l'ensemble prédictif.

    Plus précisément, le module de dialogue proposé permet à trois sous-modules d?analyses pragmatiques distinctes de coopérer en vue de produire des énoncés contextuellement pertinents. L?interprétation thématique gère la cohérence globale de l?ensemble des thèmes abordés durant le dialogue. L?analyse intentionnelle fournit une représentation fonctionnelle du dialogue, où les rôles des diverses interventions sont explicités. Enfin, la gestion de l?interaction permet de réagir aux différents types d?incompréhension en permettant au dialogue de rester efficace malgré de telles situations. Ces trois mécanismes collaborent grâce au gestionnaire du dialogue afin de déterminer le but de l?utilisateur : l?interprétation thématique et l?analyse intentionnelle indiquent quand calculer un nouveau but et comment reconnaître un but principal d?un sous-but secondaire, ce qui a une influence non négligeable sur la reconnaissance du plan de l?interlocuteur et la détermination du plan du système. Le générateur d?actes de langage considère également les résultats de plusieurs modules (le gestionnaire de plans et le gestionnaire du dialogue) pour décider de la meilleure réponse à produire. Tous ces modules accèdent à l?historique du dialogue qui représente l'ensemble des aspects pertinents du dialogue.

    Indépendament de ces aspects, un autre apport important du groupe Langage et Cognition à la tâche gestion de dialogue et planification concerne la détection d'intentions sur la base de critères formels . Cécile Balkanski a étudié la différence entre des énoncés tels que :

    (1) Jean a appuyé sur l'interrupteur pour éteindre l'imprimante

    et

    (2) Jean a éteint l'imprimante en appuyant sur l'interrupteur.

    La différence essentielle entre les énoncés de type (1) indiquant un moyen et les énoncés de type (2) indiquant une raison s'observe en termes de croyances et d'intention. Ainsi en (1) l'intention d'éteindre l'imprimante est marquée alors qu'en (2) il peut s'agir d'un effet inattendu et inversement, après (1), l'imprimante n'est peut être pas éteinte alors qu'elle l'est nécessairement après (2).

    Le modèle proposé pour le traitement de ce type de phrases repose sur :

    - une représentation logique de ces phrases indépendante du contexte ; cette représentation s'appuie sur un algorithme de reconnaissance de ces types d'énoncés.

    - une représentation des relations entre actions,

    - des règles d'interprétation.

    Derrière la distinction entre ces deux types de phrases, la question plus générale est celle des marques linguistiques de l'intention. En général, on préjuge, dans le dialogue finalisé, du caractère intentionnel des demandes de l'utilisateur et de ses actions. Si cette démarche est légitime au premier niveau d'interprétation, elle peut devenir plus douteuse lorsque, dans une approche fondée sur les plans par exemple, on anticipe sur la tâche préjugée de l'utilisateur. Dans un tel cadre, il est à prévoir que les énoncés de contestation de la part de l'utilisateur porteront sur les moyens alors que les explications de la part du système indiqueront une raison. (Et ce, d'autant plus qu'on a affaire à des dialogues à visée actionnelle et que le dialogue a à gérer des décalages entre ses croyances et celles de l'utilisateur.)

  7. L'approche de l'IRISA
  8. Comme mentionné précédemment, l'IRISA travaille sur deux types de modélisation du dialogue. La première, fondée sur le modèle de Bilange a fait l'objet de peu d'interactions directes dans le cadre du projet Dali. La seconde, fondée sur la planification était au coeur même du thème de la tâche "gestion de dialogue et planification". Ce type de modélisation, issue à l'origine des travaux de Allen, Cohen et Perrault considère la notion d'acte de langage au sens strict et modélise donc les actes de langage de la même façon que les actions à réaliser sur l'application.

    La différence entre les actes de langage modélisés comme des actions et les actions effectives sur l'application tient à la nature des préconditions des premiers qui font intervenir l'utilisateur et le système (vu comme un agent dialoguant). On a ainsi affaire à des conditions de sincérité par exemple.

    Ce type d'approche présente deux intérêts :

    - d'une part, les structures de raisonnement du système de dialogue deviennent homogènes : on n'a affaire qu'à des actions et le mécanisme de raisonnement est un planificateur.

    - d'autre part, le dialogue devient connexe à la tâche est on peut s'appuyer sur cette tâche pour réparer des plans. Ce second point est ainsi directement lié aux aspects de robustesse des systèmes de dialogue (cf la tâche robustesse)

  9. L'approche du CRIN
  10. La structuration du dialogue se reflète en particulier dans les chaînes de références. Le modèle employé au CRIN vise à généraliser cette connexité aux cas de non stricte co-référence, ce point sera donc développé dans le compte rendu de la tâche référence. En ce qui concerne la tâche gestion de dialogue et planification, l'apport du CRIN a porté sur la représentation d'énoncés de commande sous forme d'états finaux. Ainsi, plutôt que d'associer directement à un énoncé une action à effectuer, l'idée est de représenter l'état visé des objets concernés. A titre d'exemple, si on suppose un énoncé tel que :

    - crée une fenêtre verte

    paramètre de couleur, on représente l'énoncé comme visant un état dans lequel il y ait une nouvelle fenêtre verte, à charge pour un planificateur de réaliser cet état à l'aide des fonctions de création de fenêtre et de coloriage de fenêtre respectivement. Cette idée permet :

    - de garder une représentation syntaxique homogène des énoncés  : on ne fait pas dépendre la forme du groupe nominal du verbe employé,

    - d'obtenir une représentation des énoncés homogène avec une représentation de buts.

    Les sous-dialogues à l'initiative du système sont alors directement des dialogues gouvernés par les buts induits par les énoncés initiatifs. De ce fait, les propositions en matière de gestion des buts faites dans le cadre de la tâche "modèles de tâche et d'utilisateur" sont directement intégrables et les relations entre buts reflètent alors pour une part la structure du dialogue.

En guise de conclusion

L'obtention d'un modèle de représentation et de gestion du dialogue commun aux équipes participantes est évidemment un objectif à plus long terme que la durée du présent projet. Il nous a semblé que pour progresser dans cette voie il était pertinent de ne pas isoler les modèles employés dans chaque équipe des conditions dans lesquels ces modèles sont utilisés et développés. Si certaines propositions sont ainsi directement intégrables dans tout système de dialogue, d'autres au contraire trouvent leur justification dans la nécessité de contraindre un système de reconnaissance de parole ou de renforcer la robustesse d'un système portant sur une application réduite mais admettant des formes syntaxiques élaborées.

Il est donc à la charge de chacune des équipes participantes de juger de l'adéquation des propositions des autres dans le cadre de travail qui lui est propre...

2. Tâche 2 : les modèles de la tâche et de l'utilisateur (responsable Jean Caelen)

Introduction aux modèles de tâche

"Analyse de tâches", "modèle de tâche", "activité" sont des termes issus de l?ergonomie qui se sont propagés dans de nombreux domaines, du génie logiciel, de l?intelligence artificielle, de la robotique, pour aboutir au domaine du dialogue homme-machine (DHM) . Si dans leurs utilisations dans ces divers domaines ces termes ne recouvrent pas toujours exactement les mêmes notions, l?objectif de base en DHM et en conception d?interfaces est d?analyser, de représenter et de contrôler la suite des actes d?un utilisateur.

La suite d'actes, réellement effectuée par l'utilisateur pour résoudre un problème, est appelée activité. Elle n?est de fait explicable qu?a posteriori ? une fois le but atteint ? et vis-à-vis de l?objectif visé. L?activité est l?ensemble indifférencié des actes manifestés par un utilisateur : il en résulte que ces actes peuvent avoir ou non un rapport direct avec l?objectif (dégager un espace de travail sur l?écran ne fait pas vraiment partie de la tâche d?écriture d?un texte par exemple, cela est seulement nécessité par l?encombrement momentané de l?écran). La tâche prend sa signification par rapport aux buts que s?est assigné l?utilisateur. Comprendre l?activité revient à donner un sens aux actes de l?usager compte-tenu de ses intentions (supposées ou connues) vis-à-vis de la tâche qu'il a à accomplir.

Une tâche se définit comme la réalisation d?un but dans un contexte et selon une procédure dont la représentation et la précision varient en fonction des objectifs dirigeant l?analyse. C?est en effet du ressort de l?analyste de dire ce qu?il entend par tâche. Souvent il adopte un point de vue fonctionnaliste : il représente plus ou moins abstraitement les actes potentiels d?un utilisateur, leurs effets et leurs conditions de réussite, leurs contraintes. Le degré de granularité des actes est très variable, leur décomposition ou leur structuration est souvent arbitraire. La complexité des tâches dépend bien sûr des domaines d?application : elle va de la routine (contrôle de processus) à l?innovation (problèmes de conception) en passant par tous les stades de complexité intermédiaires. Dans le premier cas on conçoit bien qu?elle soit fortement structurée et que l?activité soit planifiable a priori, dans l?autre cas elle ne l?est pas du fait de l?imprévisibilité même des processus de création. Il est alors tentant pour le concepteur du dialogue de représenter des formes de comportements types pour canaliser et interpréter l?activité de l?utilisateur. Remarquons cependant que dans de nombreuses situations commandées, l?utilisateur ne suit pas nécessairement l?ordonnancement prévu dans le modèle de tâche ? même pour des tâches à risque et/ou très contraintes. Le modèle de tâche n?est donc utile à la machine que pour planifier son propre comportement et pour tenter de se représenter le sens des actes d?un utilisateur.

Un modèle de tâche doit donc être entendu à divers sens : représentation des enchaînements des actions de la machine, représentation structurée des fonctions du logiciel, suite prototypique d?actes conduisant à un but, ensemble des connaissances servant à organiser une activité, etc.

On peut distinguer deux grands types de " modèles de tâche " :

? les modèles explicites, dans lesquels la tâche guide le dialogue,

? et les modèles implicites, dans lesquels l?activité guide le dialogue (ce qui donne des stratégies moins directives).

Les modèles de tâche explicites

Cadre théorique général

Définition : un modèle de tâche explicite décrit de manière explicite la succession des actions (corps, effets, conditions, ordonnancement, etc.) possibles conduisant à un but donné.

Classiquement les tâches sont hiérarchisées (arbre ET/OU, réseau ATN, réseau de Pétri, etc.) en plans et/ou sous-plans ou sous tâches, scénarios, etc., jusqu?aux scripts qui instancient les actions élémentaires. Ce mode de représentation est statique : il décrit la combinatoire des actions qu?il est théoriquement possible d?enchaîner pour exécuter une tâche avec succès.

Les travaux dans le contrat DALI

Modélisation

Les travaux de l'IRISA se situent dans la continuité des propositions élaborées pour le projet SUNDIAL . Ils concernent la modélisation d'applications et de tâches dans le domaine d'interrogation de bases de données. Le modèle de l'application, primitivement envisagé comme explicite, vise à comporter des éléments implicites.

L'application, considérée comme un système d'information est constituée des principaux éléments suivants :

Réalisation

Le modèle d'application et de tâches vise à intégrer les éléments cités ci-dessus ainsi que les différentes fonctionnalités qui en découlent. Il est composé de la façon suivante.

Un certain nombre de points méritent d'être signalés

  1.  à une demande de l'utilisateur peut correspondre plusieurs buts (il faut donc posséder des heuristiques et des critères pour lever l'ambiguité)
  2.  l'ensemble de règles est minimal dans le sens où le système est capable de construire dynamiquement de nouveaux buts.
  3.  le but est en fait une structure (arbre) qui évolue durant le dialogue : le fait de parler d'un vol retour après avoir discuté d'un vol aller se traduira par la construction d'un arbre de buts dans lequel on trouvera des contraintes liant les deux sous-buts (vol aller, vol retour).

Les modèles de tâche implicites

1. Cadre théorique général

Définition : un modèle de tâche implicite ne décrit pas la succession des actions mais seulement le but à atteindre et des moyens pour l?atteindre (le cheminement n?est pas explicité, il sera inféré en relation avec la situation).

Durant la dernière décennie on a cherché à comprendre certains comportements humains placés en résolution de problèmes. La plupart d?entre eux utilisent non pas des plans prédéfinis mais raisonnent par analogie en s?appuyant sur des situations et des savoirs-faire connus, ou raisonnent par généralisation, abduction, etc. Les tâches de conception sont à cet égard les plus caractéristiques : les concepteurs construisent leurs buts au fur et à mesure de l?évolution de leur tâche, de manière opportuniste en ayant seulement en arrière-plan un objectif général.

Cela conduit à représenter le modèle de tâche par :

2. Les travaux dans DALI

Le LIMSI et le CLIPS-IMAG ont choisi de travailler dans ces directions.

Dans un modèle de tâche implicite l?effort ne porte non plus sur la représentation des données mais sur la puissance des processus d?inférence. Il y a dans cette perspective deux problèmes majeurs :

1) la gestion des buts,

2) l?apprentissage des savoirs-faire.

Le gestionnaire des buts opère sur une liste dont il peut modifier l?ordre en fonction de l?évolution du dialogue, des circonstances, de l?urgence de la situation, des états mentaux de l?utilisateur, etc. On suppose qu?à un instant donné on se trouve dans un échange (une suite de tours de parole pendant lesquels un but est maintenu). On ne sort d?un échange que lorsque le but est satisfait ou que par un abandon. Pour gérer les buts (et donc planifier les actions de la machine) on dispose d?un arbre de buts et de marqueurs indiquant l?état des buts. Les fonctions élémentaires de gestion sont :

La gestion des buts (LIMSI, groupe Langage et Cognition)

Les travaux du LIMSI se sont focalisés autour de la gestion des buts multiples de l?utilisateur dans un dialogue homme-machine de recherche d?informations. Il s?agit de dialogues écrits dans lesquels la fréquence des questions multiples est grande (notamment du fait que l?on autorise des énoncés longs). Le problème de "l?interaction des buts" a été peu étudié sauf par . Pour cela un ensemble de stratégies a été conçu afin de pouvoir en tenir compte. Une extension de la grammaire de dialogue de l?Ecole genevoise est proposée.

Le but d?une requête est dit principal ; il est déterminé par le scénario auquel il se rattache. Toutes les autres informations contenues dans la requête ou complémentaires mais nécessaires à la satisfaction de la requête conduisent à des sous-buts. On distingue :

La gestion des buts revient à choisir un ordre de traitement pertinent des buts multiples. Ces buts peuvent être indépendants ou liés entre eux, provenir d?une interaction entre les partenaires (multilocuteur) ou d?un seul des deux (monolocuteur). Sur le corpus d?étude on relève en outre des buts multiples se rapportant au même scénario et des buts multiples se rapportant à des scénarios différents. Dans le premier cas ce peuvent être des points de vue conduisant à des conflits. Chaque partenaire de l?interaction a un objectif particulier à réaliser, celle de la machine se réduisant à satisfaire les requêtes de l?utilisateur à partir de sa compréhension des propos de cet utilisateur.. Le principe est donc de toujours satisfaire le but <Demande_Info_BD>. La recherche du but est guidée par le thème principal de la demande. Dans le cas de buts multiples on active (selon l?entrelacement et la dépendance des thèmes des ou de la requête) un ou plusieurs buts de type <Demande_Info >. La technique développée est inspirée des travaux de en planification cognitive et de .

Les règles de méta-planification pour gérer les buts multiples sont essentiellement :

Le système de gestion du LIMSI est alors le suivant :

  1. respectant si possible l?ordre naturel d?apparition des buts,
  2. traitant les buts dans l?ordre des prérequis s?il y en a,
  3. traitant le dernier but si les buts empilés sont incompatibles,
  4. mettant en attente un des buts dans les cas de conjonction,
  5. abandonnant un but s?il y a un changement d?avis,
  6. modifiant un but s?il y a une correction
  7. oubliant les buts trop lointains,
  8. ignorant les buts sans importance,
  9. choisissant de satisfaire simultanément plusieurs buts si c?est possible,
  10. intégrant les sous-buts dans un but par factorisation de paramètres ou de situations,

Apprentissage des savoir-faire (CLIPS-IMAG)

L?objectif général est de donner à la machine des capacités d?adaptation à la tâche. Ces capacités nécessitent de mettre en œuvre des processus d?apprentissage car il n?est pas envisageable de prévoir toutes les situations d?usage ni tous les types d?utilisateurs a priori. La machine doit donc doublement s?adapter :

(a) d?une part, elle doit acquérir les concepts manipulés à travers le langage et qui sont souvent "naturels" (donc implicites) pour l?utilisateur humain,

(b) d?autre part elle doit apprendre des plans d?action dans le contexte d?usage de l?utilisateur et de manière suffisamment générique pour être réutilisables.

Comme dans le dialogue humain, il est opportun de profiter du dialogue non seulement pour obtenir des renseignements, échanger des points de vue, coordonner les actions, etc., mais aussi pour apprendre. L'idée est donc de fonder le modèle de dialogue sur la notion d?apprentissage des savoirs et des savoir-faire. Cela conduit notamment à la recherche d?un modèle adéquat de représentation des connaissances apte à faciliter l?apprentissage incrémental, l?élaboration de mécanismes de raisonnement et la construction de plans. Pour être capable d?un tel dialogue, la machine doit avoir des capacités qui lui permettent de coordonner les processus actionnels en fonction des buts de l?usager.

La suite présente, sans détailler, certaines considérations relatives à l?apprentissage dans un modèle de dialogue proposé pour affronter des situations de conception. Dans ce type de dialogue, le plan pour exécuter la tâche (ou pour résoudre le problème) est construit au fur et à mesure de l?avancée du dialogue et par le dialogue. Après que le but ait été atteint et validé par l?utilisateur, la machine connaît les actions et peut réitérer la tâche si nécessaire ou la généraliser à d?autres usages. Dans des situations ultérieures et à partir de cette connaissance apprise, la machine a aussi la possibilité d?inférer les intentions de l?utilisateur pour coopérer à (ou anticiper sur) la résolution de la tâche en cours ? puisqu?il lui suffit de reconnaître les séquences significatives de la tâche en question.

Par définition la conception est une activité créatrice. Malgré tout, on s?aperçoit ? chez les architectes par exemple ? que l?acte de conception passe souvent par une réutilisation de plans architecturaux anciens, simplement réorganisés ou réagencés. Au-delà de ce simple exemple notons également l?importance de l?apprentissage par l?action en psychologie du comportement .

L?apprentissage se fait pendant une phase d?observation suivie par une phase de généralisation confirmée par l?utilisateur. Le contrôle de l?activité se fait en proposant par anticipation ou de manière coopérative des schémas appris. Au départ, on suppose que l?on dispose d?actions élémentaires bien. Puis, après que l?utilisateur a posé un but, il s?agit pour la machine d?observer, d?ordonner et d?associer cette séquence d?actions au but posé. Nous sommes donc ici dans un contexte maître-apprennant où le maître est l?utilisateur et l?apprenant est la machine.

À la fin de cette étape, la machine est capable de recommencer la tâche à partir d?une demande de l?utilisateur. Mais l?apprentissage ne s?arrête pas ici. La nouvelle tâche apprise doit être généralisée, spécialisée ou intégrée comme une sous-tâche à une tâche plus complexe. Cette assimilation permet la formation d?une abstraction liée au but posé par l?utilisateur. De cette façon, la connaissance acquise évolue pour se rapprocher au concept réel détenu par l?utilisateur.

Dans notre cas, l?apprentissage est caractérisée par :

a) La formation d?un concept, il est (i) empirique ? au départ, on ne connaît rien sur la tâche ?, et il (ii) procède de façon incrémentale ? la description d?une tâche est ajustée à chaque occurrence d?une nouvelle instance de cette tâche.

b) Les tâches sont classifiées avec l?aide et sous le contrôle de l?utilisateur. L?utilisateur guide la formation de nouveaux concepts, ainsi que l?affinage de concepts déjà appris.

c) La description d?une tâche doit permettre sa reconnaissance ; dans une situation ultérieure, on tente d?inférer la tâche à partir des actions observées.

La reconnaissance d?intentions peut être vue comme le problème inverse de l?apprentissage : les notions résultantes de l?apprentissage dirigent, pendant le déroulement du dialogue, la reconnaissance du but poursuivi par l?utilisateur, c?est-à-dire, qu?à partir des concepts appris, on tente de retrouver l?intention de l?utilisateur. Ainsi, la machine sera capable de coopérer lorsqu?une situation, analogue à une autre déjà vécue, est rencontrée. Dans ce cas-là, après la confirmation de l?utilisateur et éventuellement un sous-dialogue de particularisation de la tâche, le plan pourra être exécuté. De cette manière, en s?appuyant sur une stratégie dirigée par les intentions, la machine établit un dialogue qui converge vers la réalisation de la tâche.

La recherche des intentions utilise un processus de raisonnement pour déduire le but de l?utilisateur à travers la succession d?actions observées. Comme nous l?avons évoqué, l?action est l?élément principal. Le dessin d?une maison et d?un bateau sont différents par les actions réalisées non par les formes perçues. Pour reconnaître l?intention de l?utilisateur on doit enregistrer et transformer les événements observés ; et ensuite vérifier s?ils font partie d?un concept connu.

Le système de reconnaissance tente donc d?établir un lien entre une séquence répertoriée et la séquence d?actions observées. Cette opération est réalisée de manière incrémentale. Au fur et à mesure de l?occurrence des événements une description récente est construite. Lorsque cette description récente est appariée avec un sous-ensemble d?actions d?un concept connu, la machine peut donc continuer la tâche après la validation de l?utilisateur. Dans le cas d?ambiguïté, c?est-à-dire, quand le processus de reconnaissance obtient plus d?une hypothèse, on attend jusqu'à ce que la description courante soit suffisamment complète pour tomber sur une seule possibilité.

Conclusion

Les travaux effectués dans le projet DALI ont permis d'avancer dans trois directions :

  1. approfondissement et mise en œuvre des modèles de tâche explicites sur des applications concrètes,
  2. gestion des buts multiples,
  3. exploration des modèles de tâche implicites et approfondissement de la notion d'apprentissage des savoir-faire.

L?apprentissage est essentiel pour améliorer la communication ; si la machine apprend à faire une tâche et à agir de manière opportune alors l?utilisateur pourra lui confier des travaux de réitération et de production assistée. La machine sera capable de coopérer avec lui. En retour, l?apprentissage permet de guider le dialogue en utilisant une stratégie basée sur des intentions et qui est le fondement de toute stratégie coopérative

3. Tâche 3 : Référence (responsable Laure Vieu)

Le Groupe Référence vise à étudier les processus de résolution des références dans le dialogue. Plus précisément, nous nous focalisons à la fois sur les mécanismes généraux de la référence et sur les problèmes spécifiques de la référence spatio-temporelle.

Par souci d'efficacité et afin de concentrer nos efforts, nous avons choisi de définir deux domaines d'étude privilégiés : les descriptions d'itinéraires et les énoncés de positionnement.

Mode de fonctionnement

Lors de la première année, le groupe a fonctionné suivant deux modes : d'une part des réunions plénières aux cours desquelles ont été présentées les approches de chacune des équipes ainsi que les propositions concernant les domaines d'applications possibles pour le travail commun. Cinq réunions de ce type ont eu lieu : le 29 octobre 1993 à Toulouse, les 14 et 15 février 1994 à Paris, les 19 et 20 mai 1994 à Nancy, le 29 juin 1994 à Toulouse et le 21 octobre 1994 à Orsay.

D'autre part, des réunions bilatérales ont permis d'approfondir des thèmes spécifiques sur lesquels les équipes concernées étaient complémentaires. Trois thèmes ont été abordés : représentation du discours et référence (équipes Dialogue et LRC, 14-15 avril 94) ; mouvements et itinéraires (équipes CH et LRC, 27-28-29 avril 94) ; référence et positionnement (équipes CH et Dialogue, 9 juin 94).

Suite à cette première période, l'arrêt du projet a entraîné la suspension des réunions régulières. Nous avons bien entendu continué à travailler, et outre le fait que nous avons pu nous rencontrer à d'autres occasions, la mise en commun de nos travaux a pu progresser lors des réunions plénières de DALI.

Bilan des travaux réalisés

La première réunion plénière a eu pour objet la définition d'un plan de travail pour la première année du projet. Nous avons alors convenu d'une part d'approfondir des objectifs généraux, comme la confrontation des arrière-plans théoriques des différents participants, le choix de matériaux communs (matériaux linguistiques et situations de dialogues) et l'étude des liens entre la référence générale et la référence spatio-temporelle.

Ces objectifs généraux ont été largement atteints à l'issue du projet. En plus des présentations approfondies des cadres théoriques respectifs lors des réunions, une compilation de bibliographie structurée et annotée a été réalisée au sein du groupe. Celle-ci regroupe nos propres publications portant sur le thème mais aussi les travaux de référence qui nous semblent indispensables. Un jeu d'exemples (constamment enrichi) concernant les énoncés de positionnement et les descriptions d'itinéraires a servi de base aux confrontations méthodologiques. Nous avons fait ressortir comment les procédures d'interprétation des expressions référentielles, définies et indéfinies notamment, étaient mises en jeu dans les mécanismes de résolution des références spatio-temporelles apparaissant dans les descriptions d'itinéraires. Ceci a mis en évidence que les domaines choisis sont bien représentatifs des mécanismes généraux de la référence.

D'autre part, ces approfondissements ont été appliqués sur des objectifs thématiques concernant soit les énoncés de positionnement, soit les descriptions d'itinéraires. En particulier, nous avons confronté deux approches pour l'analyse sémantique des verbes de déplacement : l'une purement linguistique basée sur l'analyse des concepts intrinsèquement présents dans les verbes considérés hors de tout contexte ; l'autre s'attachant à isoler les concepts spatiaux contenus dans les syntagmes verbaux issus du corpus de descriptions d'itinéraires. Les résultats obtenus montrent la complémentarité des deux approches.

Afin de concrétiser et de valoriser ces travaux communs, la rédaction d'un ouvrage commun sur le thème Référence et Espace a été envisagée au bout de quelques mois. Un premier plan a été établi (voir l'annexe ci-après), mais les travaux sur cet ouvrage ont été interrompus par la suspension du projet.

Toutefois, les trois équipes ont continué à travailler chacune sur ce thème, ce qui s'est traduit par plusieurs publications importantes. Notamment, trois thèses ont été soutenues, chacune ayant contribué de façon originale aux problèmes de la résolution de la référence spatiale et spatio-temporelle, dans le discours et le dialogue, appliqués aux descriptions d'itinéraires et aux énoncés de positionnement (cf. Bibliographie).

Un développement particulier a également été poursuivi dans le cadre de l?action inter-tâches rôle du lexique ; nous en rendons compte ci-dessous.

Lexique et référence

La résolution d'une référence à un objet du monde fait appel à la notion de saillance (importance ou pertinence d'un objet dans le contexte dialogique).

Le type de référence le plus concerné par le lexique est la référence à un objet du monde, qui peut être désigné par un lexème ou par un autre moyen (click souris, geste, ?).

Exemple :

(I2) maintenant tu vas prendre un petit carré et le mettre en bas à gauche

pour faire une maison

Dans (I2), un petit carré par exemple désigne un des petits carrés qui sont sur l'écran, il ne s'agit donc pas de n'importe quel petit carré mais d'un objet du monde lié à la tâche en cours. Le rôle du lexique dans ce cas là serait de fournir une interprétation prioritaire de petit carré désignant les objets de la tâche, mais cela suppose un calcul a priori de liens prioritaires entre les lexèmes et les objets de la tâche (du moins ceux qui sont connus à l'avance). De même, la locution en bas à gauche fait référence à un repère implicite : la fenêtre de travail.

Utiliser le module lexical permettrait ici encore de faire intervenir la pragamtique très tôt dans le processus d'interprétation des actes. En associant aux lexèmes des interprétations prioritaires liées à la tâche en cours et/ou au dialogue en cours, on peut limiter les ambiguïtés inhérentes à la langue. Il faut imaginer un lexique à deux niveaux : en fond le lexique général, tel qu'il est codé pour (presque) n'importe quelle application de TAL. Au premier plan apparaîtraient les instances des entrées générales qui :

? soit font partie du domaine de la tâche en cours et ont été définies lors de la mise en œuvre initiale du système (les petits carrés de l'exemple ci-dessus) ;

? soit sont apparus au cours du dialogue (la maison dans l'exemple).

On retrouve la distinction entre mémoire à long terme (le lexique général) et mémoire à cours terme (les instances de premier plan). Sur la référence, voir également .

Cette question intéresse essentiellement le CRIN et le LRC dans le contexte de la modélisation du temps, de l'espace et du mouvement.

L'approche du CRIN consiste à analyser comment les contraintes propres à la représentation d'une tâche spécifique (e.g. construction et arrangement d'un univers) d'une part et les spécificités de fonctionnement des différentes expressions référentielles susceptibles d'être rencontrées dans un dialogue (en particulier GN définis, indéfinis et démonstratifs) imposent une vision particulière du lexique. Cette vision doit prendre en compte l'interdéfinition d'items lexicaux à l'intérieur de sous-lexiques tels que celui des termes de localisation spatiale.

Les recherches de LRC visent à obtenir une description linguistique progressive des ressources dont dispose la langue pour exprimer le temps, l'espace et le mouvement. Elles concernent la sémantique des noms de temps, noms de localisation interne, verbes de déplacement, prépositions spatiales et temporelles, adverbes temporels et spatiaux. Elles se focalisent, dans le cadre de DALI, sur l'utilisation de la langue dans des contextes restreints, par exemple, des dialogues Homme-Machine intégrant vision et langage.

Au cours de la première année les travaux de cette sous-tâche ont été intégrés dans les travaux du groupe Référence. On consultera donc pour ces questions le rapport de ce groupe de travail.

Tâche 4 : robustesse et dialogue (responsable Jacques Siroux)

Présentation de la problématique

Les interactions dialogiques en langue naturelle entre agents humains qui se déroulent dans le cadre de l'accomplissement d'une tâche (recherche d'information, conception de dessin,...) se terminent rarement sur des échecs inexpliqués par les agents. Or une analyse, qu'elle soit effectuée du point de vue des agents ou bien d'un observateur externe à l'interaction, du déroulement pas à pas des dialogues met en évidence l'apparition de nombreux phénomènes qui devraient poser problème pour le bon déroulement du dialogue. Ces phénomènes concernent autant la performance que la compétence des agents à dialoguer pour l'accomplissement d'une tâche. Brièvement, l'analyse montre qu'un agent humain est capable :

? de faire émerger du sens (sémantiquement ou du point de vue de l'interaction) de tout comportement langagier de son interlocuteur. Cette capacité permet notamment de comprendre des énoncés agrammaticaux ;

? de détecter les anomalies de tous types (par exemple mauvais usage d'un mot, ambiguïté, usage d'un mot inconnu, erreur sur l'utilisation d'une commande), de les identifier précisément avant de décider de les traiter (effectuer une correction automatique ou dialoguée) ou de les ignorer (au moins dans un premier temps) ;

? de produire une réaction dialogique pertinente, c'est-à-dire adaptée à la fois aux états du dialogue et de la tâche et aux positions des interlocuteurs dans l'interaction.

Ces capacités contribuent à rendre les interactions extrêmement robustes dans le sens où les interactions n'aboutissent que très rarement à des échecs non explicables. Dans le cadre du dialogue personne-machine, elles deviennent d'autant plus indispensables pour le système que d'une part ce dernier présente de nombreuses limitations sur le plan de la performance (par exemple pour la reconnaissance de parole) et de la compétence (ses connaissances sont en général réduites) et que d'autre part le comportement de l'utilisateur confronté à la machine n'est pas toujours complètement prévisible.

Travaux réalisés dans le cadre de DALI

L'importance de ce thème dans la construction de systèmes réalistes de dialogue fait que nombreuses études lui ont été ou lui sont consacrées dans les communautés scientifiques internationale, nationale et bien sur dans celle de DALI. La première tâche que nous avons réalisée est un état des lieux sur ce thème dans nos équipes. Cette étude nous a permis d'échanger un grand nombre d'informations qui ont été utilisées par la suite.

Nous présentons en premier lieu les conclusions de l'étude puis, par équipe, les principaux résultats obtenus.

Étude état des lieux

Cette étude a été menée à l'aide d'un questionnaire et lors de réunion de travail. Ses résultats ont été accompagnés d'un rapport bibliographique qui a ensuite était complété à plusieurs reprises.

Les réponses au questionnaire peuvent être réparties de façon arbitraire en quatre chapitres : les traitements sur les niveaux de surface des entrées (lexique, syntaxe, sémantique), les traitements sur les niveaux intentionnel et communicatif, la conduite du dialogue et enfin les points divers.

Niveaux de surface

Sur ces niveaux, un bon nombre de travaux ont déjà eu lieu (dans nos équipes ou ailleurs) et ont produit des résultats exploitables ou exploités Quelques commentaires et remarques :

? les algorithmes au niveau lexical sont très bien représentés (équipes TRILAN, IRIT, LIMSI) ; la notion de lexique est évidemment centrale. L?adaptation de lexique à une application particulière n?est pas évoquée (mais peut être est-ce un faux problème ?). La modification du lexique (ajout de nouvelles références) en cours de "session" n?est évoquée que par TRILAN. Le traitement des mots inconnus est repoussé au niveau syntaxique. Enfin, seul le LIMSI, semble-t-il, utilise les algorithmes dans un système complet de dialogue.

? au niveau syntaxique et sémantique, les algorithmes cités concernent le traitement des fautes d?accord, les erreurs syntaxiques (à préciser) et les mots inconnus. Ces traitements sont complètement intégrés dans le système du LIMSI. Le problème du contrôle se pose encore notamment du fait de l?adjonction de nouvelles sources de connaissances telles qu?un modèle (statique et dynamique) de l?utilisateur, des statistiques d?usage durant la session, etc. L?aide que pourrait apporter un sous-dialogue avec l?utilisateur durant le traitement demanderait à être évaluée.

Niveau communicatif

Plusieurs aspects particuliers sont traités dans nos systèmes :

? les erreurs de l?utilisateur par rapport à l?activité demandée ou en cours. La détection et la correction est fondée sur les notions de plan et de métaplan (IRISA).

? les erreurs du système dans le traitement de références ; les algorithmes fonctionnent dans le cadre de la planification (IRISA).

? l?exploitation des différentes facettes du contexte permet de tirer un maximum d?information de l?énoncé d?entrée et donc de corriger d?éventuelles imprécisions ou erreurs sur l?une des facettes. Cependant, cela nécessite la mise en œuvre et le contrôle de différents types de raisonnement. Ces points ne sont pas entièrement résolus.

Conduite du dialogue

La souplesse dans l?interaction découle des éléments et possibilités suivants (que l?on trouve plus ou moins implantés dans nos systèmes) :

? un contrôle sur les inférences aux différents niveaux de traitement (problème incomplètement résolu) qui permet de réagir de la manière la plus intelligente possible

? la conservation d?un certain degré d?incertitude (en particulier dans le traitement de références)

? la possibilité de corriger les problèmes à l?aide de sous-dialogues efficaces et conviviaux (étude et réalisation encore incomplète)

? l?utilisation de la redondance en particulier entre média

Points divers

Un certain nombre d?autres points apparaissent nommément ou de manière implicite dans les réponses :

? l?existence de corpus est notée mais leur adéquation aux problèmes que nous voulons traiter n?est pas assurée ; dans certains cas, les corpus n?ont pas été entièrement exploités

? l?architecture joue un rôle important ; certains des éléments ci-dessus sont intégrés dans des contextes architecturaux très particuliers

? les outils et méthodes cités :

? les schémas

? les réseaux sémantiques

? la planification (description et de l?application et du dialogue sous forme de plans)

Travaux de l'IRISA

Les travaux de l'IRISA ont concerné une étude d'erreurs sur un corpus et la comparaison de deux méthodes de détection de plans erronés en situation de dialogue.

Corpus et typologie d'erreurs

L'IRISA s'est intéressé à établir une typologie illustrée d'erreurs en situation de communication. Ce travail est fondé sur un corpus de dialogues recueilli par M.-A. Morel et D. Delomier initialement conçu pour étudier les phénomènes de reformulation lors d'une tâche d'information et de réservation à un guichet d'Air France. Le corpus initial, déjà transcrit, a été contrôlé et remis en forme et distribué aux équipes de DALI.

Deux types d'erreur ont été retenus :

? les malentendus : erreurs de compétence dues essentiellement au manque de connaissance de l'usager

? les erreurs de communication (erreurs de performance) qui traduisent des problèmes lors de l'expression des intentions et des références.

Pour ces deux grandes classes, une catégorisation plus fine a pu être établie avec des exemples illustratifs . Cette catégorisation a fait l'objet d'une approche de modélisation à l'aide de la planification.

Détection de plans erronés

La modélisation par plans des activités possibles des agents engagés dans un dialogue est une approche prometteuse car elle permet de traiter de manière identique les actions qui concernent la tâche et celles qui concernent l'interaction. Cependant cette formalisation étendue ou complétée pour prendre en compte des plans qui s'avèrent incorrects parce que, par exemple, l'utilisateur manque de connaissances.

Pierre Nerzic a proposé et comparé deux méthodes permettant la détection d'erreurs dans le cadre de la reconnaissance de plans . La première méthode s'appuie sur les travaux de Kautz dont elle résout un inconvénient (celui de ne pas pouvoir reconnaître des plans incorrects), travaille sur des données formalisées en logique du premier ordre mais n'a pas été implémentée. La seconde méthode proposée en 1993 par Nerzic, fondée sur la notion de métaplan, met aussi en évidence la cause de l'erreur et possède l'avantage d'avoir été implémentée. Ces deux méthodes produisent des résultats comparables en ce qui concerne le diagnostic de l'erreur.

Travaux du LIMSI

Ces travaux sont essentiellement orientés selon trois axes : le traitement de mots inconnus du système, la résolution de fautes d?accord et le contrôle des modules de correction.

Mot inconnu

Deux cas sont possibles :

1°) le système suppose une erreur de l'utilisateur

Plusieurs méthodes de correction ont été développées : recherche approximative dans le lexique de formes, transformation en chaîne phonétique et recherche exacte dans le lexique de formes phonétiques, recherche approximative dans ce même lexique en cas d'échec du précédent, essai de correction en ajoutant ou retirant un blanc (prise en considération du contexte immédiat). La structuration du lexique est fondées sur la clef dite anacode, associé à une structure de recherche de type B-arbre . Ce travail a été mis en œuvre dans la nouvelle version de Caramel en Smalltalk.

2°) le système suppose un manque de connaissance chez lui

La nouvelle version de Caramel comporte un analyseur LFG fondé sur un mécanisme de " chart " qui a été étendu afin de réaliser une analyse par îlots de confiance et permet de gérer toutes les hypothèses lexicales possibles sur un mot inconnu du système. L?analyse se poursuit alors avec les seules interprétations pertinentes.

Fautes d'accord

Il s?agit principalement de l?accord à l'intérieur du GN (entre déterminant, adjectifs et nom) ou entre le sujet et le verbe. Plusieurs corrections sont parfois possibles, selon le mot que l?on considère comme écrit de façon erronée. Nous tentons alors d?utiliser divers critères, d?ordre lexical et phonétique aussi bien que psychologique pour établir la "bonne" correction. On distinguera, par exemple, les pluriels simples (ajout d?un s ou d?un x) des pluriels complexes afin de constater que dans le premier cas, le déterminant impose généralement son genre à l?ensemble du groupe nominal, tant pour des raisons de .Jnd.distance phonétique; que de .Jnd.distance lexicale;. Dans le second cas, les deux critères s?opposent et, selon les applications, on sera amené à supposer que l?utilisateur connaît mieux les déterminants, d?usage plus courant, et qu?il ne maîtrise pas toujours le fonctionnement des pluriels complexes, ou bien que l?utilisation d?une règle complexe demandant plus d?effort, l?erreur porte sur le déterminant. De la même façon, dans le cas d?une erreur d?accord entre un pronom sujet et le verbe, selon l?interlocuteur, des raisons psychologiques inciteront à penser que l?erreur porte plutôt sur le pronom ou plutôt sur les règles de conjugaison.

Dans les cas où plus de deux mots interviennent, il faut éclaircir les relations syntaxiques qu?ils entretiennent entre eux afin de déterminer précisément quels éléments doivent être en accord. Une heuristique utile consiste alors à considérer comme "bonne" la correction où intervient le minimum de changements. Elle peut être plus élaborée en précisant des coûts pour chaque type de correction (coûts toujours fondés sur les notions de proximités lexicales et phonétiques et sur des critères psychologiques) et en choisissant la correction minimisant ces coûts.

Des règles plus fines que celles que nous évoquons rapidement ici ont été développé , bien qu'elles restent insuffisantes pour traiter tous les cas de figure.

Vers un contrôle des corrections

Le LIMSI a aussi mené des travaux sur l'étude d'une architecture pour un système de traitement lexical destiné à intégrer divers outils : analyseur morphologique, lexiques de différents domaines et correcteurs variés. Le problème central abordé ici et illustré par la figure suivante est celui du pilotage de cet ensemble de lexiques et de modules (experts) .

Exemple de fonctionnement du pilote de correction du LIMSI

Exécuter les experts les uns après les autres, selon un ordre figé, en association avec chacun des lexiques, n'est pas une solution envisageable, tant du point de vue de l'utilité d'un outil à un moment donné que de celui du temps de réponse. Un module de contrôle (niveau méta), le pilote, est ainsi chargé à tout instant de déterminer les outils les plus prometteurs.

Pour raisonner, le pilote dispose d'une base de règles utilisant diverses informations sur son environnement de travail :

? connaissances sur les experts (forme du résultat, temps moyen de traitement),

? nombre de processeurs disponibles,

? profil des utilisateurs et historique des fautes déjà commises,

? précisions sur le domaine traité,

? type d'application (dialogue, traitement de texte).

En outre, le pilote se sert des caractéristiques des mots pour effectuer leur analyse et limiter les recherches infructueuses : la taille du mot, le fait qu'il commence ou non par une majuscule, qu'il contienne un trait d'union, qu'il soit suivi d'un autre signe?

Les questions que se pose le pilote sont plus ou moins nombreuses et plus ou moins fines selon le nombre d'outils exécutables à un moment donné, selon la nature des mots que contient le texte et les caractéristiques des domaines traités. L'exécution d'un groupe d'experts permet d'obtenir un certain nombre de propositions de correction. Leur absence totale amène le pilote à poursuivre ses recherches.

L'environnement du pilote a été mis en œuvre : la gestion du parallélisme est assurée par l'exécuteur (écrit en C), divers experts en correction sont disponibles (écrits en C) : leur variété assure une large couverture lexicale (erreurs typographiques, phonographiques, de fusion, de séparation, de construction, etc.) ; les connaissances procédurales du pilote sont utilisables (développées en C et en LISP).

Dans le domaine de l'oral, les travaux ont essentiellement porté sur le développement de techniques permettant de déterminer des fragments de sens dans les résultats du module de reconnaissance de la parole (meilleure suite de mots reconnus ou treillis de mots). Ces techniques s'appuient sur une représentation conceptuelle de l'application reliée à des grammaires syntaxiques locales qui ont pour but de faire détecter les quelques mots porteurs de sens pour l'application. Un système de dialogue oral (interrogation d'une base de données sur des vols aériens) a été mis au point. Le caractère générique des solutions proposées est actuellement testé par la réalisation d'un nouveau système dans un autre domaine d'application.

L?action inter-tâches rôle du lexique a également contribué aux travaux sur la robustesse.

Lexique et robustesse

Le lexique peut anticiper une erreur ou un blocage d'interprétation en fournissant systématiquement, là où la reconnaissance ne donne qu'une solution, tous les mots phonétiquement voisins. Ce type de comportement peut être assez efficace dans le cas des noms propres (Je veux aller à Toulon/Toulouse).

Un autre point très important concerne le traitement des mots inconnus. On observe, notamment dans notre corpus, l'utilisation systématique d'associations d'idées, destinées à faciliter la réalisation de la figure. Ainsi un carré surmonté d'un triangle devient une maison, un rond peut être un soleil, ?

(I1) maintenant il faut que tu fasses un gros cercle, pour faire le soleil

Deux solutions sont alors possibles pour traiter soleil, selon que le mot est connu ou non. S'il est inconnu, on peut tout simplement le rejeter et entrer dans une séquence de correction du dialogue. On peut aussi tenir compte du lien de cause à effet : gros cercle pour faire le soleil et ajouter le mot au lexique en extrayant de la relation le maximum de propriétés :

soleil = sorte de cercle

soleil(forme => cercle ; cat => nom ; ?)

S'il est connu, il faudra être capable de faire le lien entre la forme géométrique cercle et l'objet du monde soleil, c'est à dire disposer d'une description des propriétés de l'un et l'autre des concepts permettant de les mettre en relation :

soleil(forme => rond)

cercle(forme => rond)

Le point important, dans les deux cas, est la description des propriétés associées aux concepts et la possibilité de rapprocher les concepts par leur propriétés.

Conclusion

Les travaux menés dans ce thème font apparaître à différents niveaux des résultats importants et prometteurs ainsi que le chemin qu'il reste à parcourir afin de mettre au point simplement et rapidement des systèmes robustes, conviviaux et efficaces :

  • le point de vue efficacité doit conduire à réfléchir d'une part sur les aspects architecturaux des systèmes et des modules (voir par exemple les travaux du LIMSI) et d'autre part, en ce qui concerne le traitement de la parole, sur les problèmes de l'extraction du sens le plus complet possible du signal de parole (travaux du LIMSI et de l'IRIT).
  • la convivialité dont on voudrait doter les systèmes nécessite une compréhension fine par le système des intentions des utilisateurs. Cette compréhension pose de gros problèmes notamment si l'utilisateur commet des erreurs. Il est donc indispensable de poursuivre les efforts de modélisation de la notion d'intention (travaux de l'IRISA).

5. Tâche 5 : les architectures des systèmes (responsable Gérard Sabah)

Introduction

Toutes les études sur le langage ont souligné la diversité et la complexité des connaissances nécessaires à un système de compréhension automatique du langage. Le problème essentiel, lors de l?écriture d?un système de dialogue homme-machine, est de déterminer comment ces diverses sources de connaissances collaborent, quelles relations elles entretiennent, et quelles architectures informatiques permettent de les mettre en œuvre de la façon la plus efficace possible.

Si les premiers programmes de traitement automatique des langues utilisèrent des architectures en série ou hiérarchiques, impliquant des communications fixes et limitées entre les modules, il s?avère qu?un ordre précis des opérations à effectuer ne peut être efficace dans tous les cas possibles. Ainsi, une stratégie montante le plus tôt possible paraît convenable (dès qu?un GN est construit, son interprétation sémantique est calculée, les ambiguïtés éventuelles résolues puis sa dénotation recherchée, et enfin le modèle mental correspondant construit). Il est toutefois des situations où des modèles mentaux partiels des différents personnages doivent être pris en considération avant de pouvoir résoudre les références, comme dans :

Si j?étais vous, je ne me fierais pas à mes conseils ; je suis de parti pris (Graham Greene, Un américain bien tranquille)

Pour tenter de résoudre ce type de problème, on peut envisager de ne réaliser qu?un seul module intégrant l?ensemble des connaissances nécessaires. et ont montré que de nombreuses ambiguïtés artificielles pouvaient ainsi être efficacement évitées. Si nous appelons point d?embarras des situations où l?ensemble des éléments de décision ne permettent pas au programme, à un moment donné du traitement, de prendre la bonne décision, une ambiguïté artificielle est un point d?embarras qui n?est pas dû à la langue elle-même, mais au programme. Notre argumentation selon laquelle le langage n?est pas ambigu revient à dire que, dans l?esprit du locuteur, il est possible d?utiliser des connaissances pertinentes de façon telle qu?il n?existe pas de point d?embarras.

En fait, une certaine intégration est souhaitable mais sa mise en œuvre reste difficile : il faut expliciter comment interagissent les diverses connaissances dans les règles même de traitement. Les modifications sont donc relativement difficiles, surtout dans un domaine où une mise au point expérimentale est nécessaire. En outre, on ne connaît aucune théorie linguistique qui intègre réellement toutes les connaissances nécessaires à la compréhension.

En conclusion, dans un domaine où il n?existe pas d?algorithme connu permettant d?atteindre le but visé, il est difficile d?intégrer toutes les connaissances et la coopération de sources de connaissances indépendantes s?impose. Elle permet une expression plus déclarative des connaissances : les connaissances de même nature sont regroupées en modules et coopèrent en s?échangeant des informations ; l?utilisation des connaissances n?est pas liée à ces connaissances elles-mêmes, elle est gérée indépendamment par le contrôleur.

Les travaux du groupe Langage et Cognition

Nous avons montré par ailleurs l?inadéquation des architectures classiques, et la nécessité de mettre en œuvre des systèmes dits "multi-agents" pour permettre cette modularité sans introduire d?ambiguïté artificielle dans la compréhension du langage. Cette approche a débouché sur Caramel (compréhension automatique de récits, apprentissage et modélisation des Échanges langagiers), un modèle général de traitement automatique des langues destiné à des applications très diverses (dialogue, compréhension d?histoires, résumé, etc.), qui montre comment la réflexivité et l?intelligence artificielle distribuée permettent le développement de programmes capables de représenter leurs propres actions et de raisonner sur ces représentations pour adapter dynamiquement leur comportement en manipulant de façon cohérentes les diverses représentations construites. Ces représentations sont stockées dans une mémoire contenant l?ensemble des connaissances du système et les structures de travail. Les experts collaborent en construisant des représentations dans le tableau noir de leur contrôleur et en échangeant des messages en cas de problème contingent ou imprévu. La séquence de processus appliquée pour résoudre un problème est ainsi calculée par rapport à la tâche globale à réaliser et adaptée dynamiquement, en fonction du contexte particulier en cours.

On aborde là un problème qui s?est révélé essentiel pour l?ensemble de l?intelligence artificielle : le traitement des méta-connaissances, permettant à un système d?observer son propre fonctionnement afin d?en tirer partie.

Pour montrer qu?il ne s?agit pas d?une situation aussi exotique qu?il y paraît, donnons quelques exemples réels où le texte lui-même décrit la procédure à utiliser pour le comprendre.

je ne crois pas que pas un crocodile n'a jamais marché sur son propre front ! s'écria Sylvie, bien trop excitée par la controverse pour limiter le nombre de ses négations " (Lewis Carroll, Sylvie et Bruno)

" Et il m?a dit, ajouta-t-il, en jouant de petits accords aux endroits où je mettrai des points, que Chécoavins avait laissé. Trois enfants. Sans mère. Et que la profession de Chécoavins. Etant impopulaire. La génération montante des Chécoavins. Etait dans une situation très difficile " (Dickens, La maison d?Apre-Vent)

Dans une méta-représentation, seules sont représentées les parties du système nécessaires pour les raisonnements réflexifs, ce qui réduit la complexité du système). En outre, le contenu de la méta-représentation est lié au raisonnement qui l?utilise : elle est spécialisée (un tel système peut donc disposer de plusieurs méta-modèles du même objet). Cette représentation est donc partielle (c?est une représentation des seuls éléments pertinents).

Partant de là, nous avons proposé deux extensions pour une utilisation efficace de ce type de modèle. Plutôt qu?un ensemble "plat" d?agents liés chacun à son méta-système, un méta-système peut contrôler plusieurs agents (ce qui équivaut à une décomposition a priori du problème en sous-problèmes, et regroupe ensemble les agents analogues). Cela permet d?utiliser les avantages d?un contrôle semi-centralisé, avec la souplesse des systèmes d?acteurs.

La seconde extension consiste à considérer ces méta-systèmes comme des agents usuels. Ainsi, en appliquant cette "réflexion" récursivement à plusieurs niveaux, on obtient la possibilité de mettre en place une organisation hiérarchique des agents : pour atteindre un certain but, un agent donné dispose de plusieurs moyens qui sont les autres agents qu?il contrôle (c?est-à-dire qu?il a la possibilité de déclencher). Ces agents peuvent être eux-mêmes des systèmes réflexifs contrôlant d?autres agents, eux-mêmes simples ou à nouveaux réflexifs? La structure du système est donc complètement récursive.

Cette architecture permet une interaction des agents par allers et retours continuels entre les expertises atomiques des agents concernés par un sous-problème donné. Par exemple, l?analyse syntaxique n?est pas suivie d?une interprétation sémantique des arbres acceptables, mais la correspondance entre la syntaxe et la sémantique est réalisée par le décodage d?attachements syntaxiques élémentaires, plutôt que sur l?ensemble de la phrase. Les mises en œuvre du modèle ont montré son efficacité, mais demandent un contrôle explicite assez lourd à réaliser. Nous avons également proposé un autre modèle, permettant le même type de comportement mais avec un contrôle qui reste implicite. En particulier, par rapport à l?exemple que nous venons d?évoquer, nous souhaitons modéliser ce va et vient incessant entre syntaxe et sémantique, produisant des structures de plus en plus élaborées et subtiles au fur et à mesure que le temps s?écoule.

Le carnet d?esquisses est une extension des tableaux noirs : outre le fait d?être une zone de lecture-écriture pour les processus, de déclencher ces processus et de gérer leurs communications, il met en place des relations spécifiques entre un module donné et ceux qui utilisent ses résultats. Ces liens entraînent des rétroactions venant de ces derniers et permettent au premier module d?adapter ses résultats sous ces interactions simultanées.

Ces extensions permettent non seulement de déclencher les processus de façon opportuniste (comme dans les tableaux noirs classiques), mais aussi de considérer ces processus sous deux points de vue distincts : (a) ils construisent un certain type de résultat (une esquisse, éventuellement vague et approximative), (b) ils retourne une réponse indiquant la confiance qu?ils ont envers leur propre résultat. L?esquisse construite va s?affiner au fur et à mesure que des processus de plus haut niveau vont intervenir et pourvoir le processus de rétroactions qui préciseront la pertinence de ce qu?il reconnaît par rapport à leurs propres connaissances : à la fin de ce mécanisme, l?ensemble des connaissances du système aura une influence sur les tout premiers niveaux de traitement . Le rôle du carnet d?esquisse consiste alors à examiner quel module travaille sur telle ou telle structure de données, à mettre en relation les processus pouvant constituer ces circuits élémentaires et à gérer les différents échanges de messages qui en résultent. Les résultats actuels nous permettent d?affirmer que ce type d?architecture est d?une utilité fondamentale pour introduire la souplesse nécessaire à un réel dialogue homme-machine.

Travaux du groupe Communication parlée

L'architecture des systèmes de dialogue utilisée dans le groupe est caractérisée par le fait que les différents processus sont gérés de façon globale par un processus central de dialogue ou gestionnaire de dialogue qui les active ou les désactive. Chaque processus opère sur une base de connaissances dans le but de transformer l'information en entrée en une représentation spécifique. Tous les processus se situant après le niveau de reconnaissance vocale stockent les représentations de sortie de manière unifiée dans une mémoire à court terme appelée également contexte de dialogue. Ces représentations sont stockées sous forme de schémas. La communication entre les différents processus se fait par le biais du contexte où chaque processus dépose et retire les informations dont il a besoin. Le gestionnaire de dialogue a donc le rôle de contrôler les différents processus en les activant ou les désactivant selon l'état du contexte. Ce dernier renferme la représentation sémantique de l'énoncé en cours, l'historique du dialogue, l'état de dialogue ainsi que l'état de la tâche. Dans notre architecture, le système de dialogue peut être vu comme une interface entre l'utilisateur et la tâche. Il assure d'une part un dialogue avec l'utilisateur et d'autre part une communication avec la tâche (base de données, simulateur du trafic aérien, etc.).

L'avantage de notre architecture est que les différents processus ne sont pas déclenchés de manière purement séquentielle ce qui est d'ailleurs source d'ambiguïté artificielle. Ils sont plutôt déclenchés par le gestionnaire de dialogue qui a une connaissance globale de l'état du système et par conséquent une meilleure stratégie de contrôle de tous les processus intervenant dans le dialogue. Corollairement, cette architecture a l'avantage d'être très flexible étant donné que le déclenchement des processus n'est pas figé à l'avance, il dépend du contexte dialogique.

Cette architecture est illustrée par le système SYDOR (SYstème de Dialogue oral ORienté par la tâche). Le fonctionnement de SYDOR repose sur une base de connaissances et sur des processus qui la manipulent. Cette base contient sous une forme unifiée (schémas), les spécifications de l'application-cible à savoir le langage (structure des messages), les contraintes sémantico-pragmatiques associées aux différentes requêtes possibles, la tâche (informations sur l'interprétation du message, actions à déclencher), le dialogue (scénarios, formulations de réponse), etc. Chaque schéma correspond à une catégorie sémantico-pragmatique des messages pouvant être utilisés dans le dialogue. Les processus sont gérés de façon globale par un processus central qui les active ou les désactive. Leur fonctionnement est dirigé par la base de connaissances, selon le résultat de la reconnaissance vocale (suite de mots reconnus par le système de reconnaissance). La tâche peut aussi prendre l'initiative et formuler des requêtes destinées au locuteur et éventuellement exiger des réponses.

Travaux de l?INPG

Le contrôleur de dialogue visé ici doit simuler des capacités cognitives humaines. D'après les résultats communément admis par la psychologie cognitive et l'intelligence artificielle, la connaissance est partagée en trois types de représentations :

  • la mémoire à court terme ou encore mémoire de travail, qui permet de stocker les faits en cours de traitement et les percepts
  • la mémoire procédurale qui contient les règles de savoir faire
  • la mémoire à long terme qui contient les informations de savoir, les significations, les relations topologiques entre objets mentaux

Partant de ce constat, la mémoire à court terme pourrait être associée à tous les éléments constituant l?acte de langage en cours d?analyse (e, c, p, K, F(K), com(K) et act(K), déontiques, stratégies). La mémoire à long terme serait l?univers du discours U. Enfin la mémoire procédurale correspondrait d?une part aux traitements qui transforment l?énoncé en effet perlocutoire et d?autre part aux règles permettant de déterminer la suite à donner à un acte de langage et à interpréter les effets perlocutoires. En ce qui concerne les états mentaux des interlocuteurs nous pouvons les intégrer éventuellement dans l?univers du discours.

Existe-t-il des méthodes de programmation particulièrement adaptées à la représentation de ces types de connaissance ? Les systèmes experts et les langages orientés objets semblent particulièrement bien adaptés. Dans ceux-ci, on trouve précisément trois types de connaissances : la KF, la KP et les KS. La KF est la base de faits et peut s'assimiler à la mémoire de travail. La KP est la mémoire procédurale et contient des règles qui s'appliquent aux faits de la KF. Les KS sont des bases de connaissances diverses où sont stockées des représentations à plus long terme. Il est également possible de concevoir des systèmes avec plusieurs KP distinctes partageant certaines KF et utilisant les KS pour y stocker des représentations. L'architecture ainsi obtenue est une architecture multi-experts à base de tableau noir. L'intérêt d'utiliser plusieurs experts au lieu d'un seul est qu'il est plus facile de mettre au point des ensembles plus petits et plus spécialisés de règles. On peut même envisager des mécanisme d'apprentissage permettant à ces règles de se modifier toutes seules en suivant des règles spéciales appelées méta-règles.

En identifiant ce genre d'architecture avec notre modèle théorique du dialogue, nous pouvons alors proposer le modèle qui sera détaillée au chapitre suivant. Son principe est le suivant. Un tableau noir constitué de plusieurs KF (une par niveau) sera utilisé pour stocker et analyser un acte de langage Chaque niveau correspondra à une composante de l'acte : morphosyntaxique (e, c), locutoire (p, K), illocutoire et perlocutoire (com(K), act(K), déontiques et stratégie). Les experts agissant sur ce tableau serviront à l'analyse de l'acte, un expert calculant chaque niveau à partir des niveaux précédents. Nous incluerons un niveau intermédiaire pour résoudre les références et que nous appelerons pré-locutoire (passage de p à K). L'univers du discours U sera stocké dans une KS à l'aide de réseaux sémantiques. Un dernier expert baptisé poursuite-mémoire travaillera à l'aide des faits du niveau perlocutoire pour calculer la suite à donner à un acte de langage de l'utilisateur. Il travailllera en association avec une KS appelée mémoire et qui contiendra la liste des actes marquant le début d'un sous-dialogue qui n'a pas encore été clos.

Dans cette architecture multi-experts, il faudra aussi qu'un tableau noir différent puisse être alloué pour chaque acte de langage. Lorsqu'il est complètement analysé, ce tableau ira dans une KS spéciale appelée Historique. Enfin un expert particulier contiendra les règles d'interprétation du niveau perlocutoire pour les transformer en ∆U (donc en mise à jour des réseaux sémantiques) et en ∆W (instructions envoyées à l'application).

Pour implanter un tel système il faudra disposer d?un environnement de programmation disposant de moteurs d?inférences locaux et de bases de faits pour réaliser les différents experts et d?un langage orienté objet pour réaliser les bases de connaissance. Cependant la suggestion d'utiliser des moteurs d'inférence pour réaliser les experts n'est pas exclusive. En effet un expert peut très bien être envisagé sous l'angle d'un réseaux de neurones ou d'un module écrit dans un langage de programmation classique style C.

Le rôle du lexique dans l?architecture

Le lexique intervenant au niveau le plus bas de la reconnaissance des actes de langage, il est à placer en parallèle avec les modules de reconnaissance des actes des autres modes (souris, clavier, vision, ?). On peut par exemple faire le parallèle suivant :

Niveau 0 : Perception

Click souris en 723,322

Signal de parole sur micro

Interpération physique

Click dans la fenêtre W en 32,24

Treillis de phonème

Interprétation contextuelle (tâche)

Click sur l'objet X de la tâche en cours

Mots candidats pour la tâche en cours (lexique)

Ce tableau amène deux remarques :

? la fusion (nécessaire) entre les différents modes peut être réalisée très tôt en généralisant la notion de lexique comme on généralise la notion d'acte : le module lexical serait chargé de l'interprétation de tous les actes de bas niveau, c'est à dire qu'il fournirait pour chaque événement physique son (ou ses) interprétations dans le contexte de la tâche en cours ;

? les relations entre le lexique (généralisé ou non) et les autres fonctions du système sont particulièrement importantes. C'est très clair pour le lien lexique-tâche comme on vient de le voir mais c'est également primordial pour les liens lexique-robustesse, lexique-historique, ? (voir ci-dessous).

Nous proposons donc le schéma d'architecture de la figure 1 (partiel pour l'instant). Le module lexical est un module généralisé qui centralise la désignation des objets du monde, que ce soit par la langue ou par un autre mode. Nous précisons ci-dessous les relations entre le lexique et les autres modules du système.


Figure 1 : place du lexique dans l'architecture

6. Tâche 6 : Lexique (responsable Guy Pérennou)

 Les objectifs

Différents travaux sur le lexique ont été développés par les équipes du projet dans le cadre du PRC CHM. Ces travaux ont permis de constituer des matériaux lexicaux diffusés dans la communauté. De ce point de vue les résultats les plus significatifs consistent en des lexiques destinés au traitement de l'oral (BDLEX est accessible et disponible sur le réseau), des lexiques pour le traitement de l'écrit (MULTEX) et les lexiques du LADL.

Mais les travaux sur le lexique sont bien moins avancés si l'on se place dans la perpective de la compréhension d'énoncés en langage naturel. Il convient cependant de mentionner des travaux orientés vers la compréhension de textes (le plus significatif pour le français étant sans doute le dictionnaire explicatif et combinatoire du français contemporain ) ou vers la traduction assistée par ordinateur.

On pourrait évidemment envisager d'utiliser de tels lexiques dans les systèmes de dialogue. Cependant l'expérience a montré que dans ce domaine il était nécessaire de réexaminer le rôle et la structure des contenus lexicaux. Le dialogue en effet impose ses contraintes propres aux plans syntaxique, sémantique et pragmatique.

La tâche LE ROLE DU LEXIQUE DANS LE DIALOGUE a donc été orientée de la manière suivante :

Etudes du rôle des mots grammaticaux

- Recherche des marqueurs et connecteurs pragmatiques (logiques, argumentatifs, etc.) pertinents pouvant être repérés voire analysés en dehors de tout contexte.

- Analyse des indexicaux : une étude fine des prépositions locatives et temporelles indispensables au traitement des références spatio-temporelles.

Mots pleins : définition des lexèmes sous forme de structures de traits

- Morpho-syntaxiques (classe grammaticale, genre, nombre?),

- Sémantiques (opérateur, arguments, rôle, catégorisation) pragmatiques (usages dans le dialogue, références?),

- pragmatiques (usages dans le dialogue, liaison aux structures référentielles.

De plus il est rapidement apparu qu'il conviendrait d'examiner le rôle du lexique dans des applications de dialogue homme-machine afin de situer concrètement les problèmes.

Introduction

Lexique et TALN

La fonction principale (et souvent unique) d'un lexique dans un système de traitement automatique de la langue (en abrégé TAL) est de réaliser la correspondance entre l'entrée du système (chaînes de caractères pour l'écrit treillis de phonèmes pour l'oral) et une première forme de représentation de la connaissance : la donnée de toute l'information que l'on peut associer à une simple liste de mots. De fait, l'objectif des modules de bas niveau d'un système de TAL est d'identifier une liste de mots, ambigüs ou non, afin de retrouver les morceaux du puzzle qui, une fois assemblés, décriront le contenu (ou une certaine forme du contenu) de l'énoncé d'entrée. Il convient de noter que le terme lexique employé ici doit être lu dans le sens très large de module lexical : on ne considère pas seulement une liste d'entrées mais également les processus logiciels mis en œuvre pour les utiliser.

Suivant les systèmes, et les objectifs poursuivis, la quantité d'information associée une entrée du lexique est très variable. Les systèmes les plus achevés (parce que les plus anciens et les plus simples) stockent seulement l'information morphologique associée aux formes, c'est à dire l'information intra-forme, renvoyant à d'autres modules le soin de coder et reconnaître l'information inter-forme qui permet de relier les mots entre eux et donc de reconstituer le puzzle (ou du moins une partie). Mais les théories modernes de la syntaxe accordent de plus en plus d'importance au lexique et ont tendance à y stocker également l'information inter-mot sous la forme de propriétés supplémentaires associées aux formes. L'idée est que l'information syntaxique pure, indépendante de toute instance de mot, est très réduite et que le partitionnement des mots en classes syntaxiques n'est pertinent que si les classes sont suffisamment détaillées (sous-catégorisations, description des valences). En poussant cette idée, on aboutirait à des modèles dans lequel chaque mot appartient à sa propre catégorie et donc toute l'information sur le mot doit être codé dans le lexique.

Lexique et interface personne-machine

Dans un premier temps, il convient de se poser la question de la place et du rôle du lexique dans une interface personne-machine. Pour adopter une démarche provocatrice on peut se demander : est-il nécessaire de développer un module lexical complexe pour ce type d'application ? Pour justifier ces questions, on peut faire remarquer :

? que la plupart des interfaces sont orales et que l'état actuel de la reconnaissance multi-locuteurs limite le nombre d'entrées du lexique de manière forte ;

? que même dans le cadre d'une interface écrite, pour laquelle la reconnaissance est beaucoup plus aisée, on limite le nombre d'entrées parce que le vocabulaire de l'application est limité ou parce qu'on n'a pas les moyens matériels de décrire de manière fine ni réutilisable un grand nombre d'unités lexicales.

? que dans les interfaces actuelles, l'interaction est toujours plus ou moins fortement guidée par le système (par la tâche) et donc que la reconnaissance n'intervient qu'en dernier ressort pour confirmer ou infirmer les hypothèses du système. La compréhension est essentiellement descendante : on pourrait imaginer un système sans lexique explicite, où les informations lexicales seraient noyées dans les propriétés des prédicats et objets de la tâche et du domaine.

Ce type d'organisation convient très bien pour des interfaces simples, très dirigées, dans lequel la personne n'a pas ou très peu de liberté d'expression et pas ou très peu droit à l'erreur. Si on veut envisager des interfaces souples, générales (c'est à dire réutilisables sans une réécriture complète), robustes et adaptatives, il faut envisager d'autres organisations et redonner une place au lexique car il est à la croisée des chemins, pris entre les niveaux bas de la reconnaissance et de l'analyse linguistique et les niveaux hauts de la connaissance, du raisonnement et du dialogue.

Lexique, multi-modalité et pragmatique

Dans une interface personne-machine multi-modale basée sur une approche pragmatique, le lexique contribue à la transformation de la forme externe de l'acte de langage en une forme interne interprétable par la machine. L'introduction de la multi-modalité vient ajouter une dimension supplémentaire puisque l'usage d'un mot peut être lié à un autre acte (un geste à la souris par exemple) et ne prendre sa signification qu'associé à cet autre acte. Cette contrainte, associé au fait que dans les interfaces orales la syntaxe est de peu de secours, incite à donner une place importante au lexique dans le processus de compréhension. Cependant, le module lexical ne saurait être dissocié des autres modules et nous allons envisager, dans les sections suivantes, la place du lexique dans l'architecture et les liens avec les autres fonctions du système de dialogue.

Les contributions lexicales à la compréhension du dialogue

Le mot intervient dans l'énoncé à plusieurs niveaux et cela de plusieurs points de vue. Deux aspects duaux doivent d'abord être distingués :

- Le message linguistique en tant qu'entrée,

- Le message linguistique en tant que sortie.

Dans une application réelle on considère que l'entrée est produite par l'usager et la sortie lui est destinée. Les tâches de traitement des entrées et des sorties sont d'une égale importance pour le succès des applications de dialogue, spécialement dans le cas du dialogue oral.

Il faut cependant admettre que la recherche a le plus souvent privilégié le traitement des entrées (point sur lesquel nous allons revenir plus loin) ; dans DALI en particulier, les travaux sur le lexique ont essentiellement portés sur cet aspect. Nous aborderons d'abord le traitement des entrées pour en extraire un sens permettant la conduite du dialogue. Nous passerons ensuite en revue les questions soulevées par rapport au rôle des mots et du lexique.

Traitement d'une entrée linguistique

Dans les systèmes de dialogue l'entrée linguistique fait (généralement) l'objet de deux séries de traitements :

1°) Les traitements codiques qui permettent le passage du son (ou du texte) à une représentation indépendante du contexte, exploitant uniquement les connaissances du code de la langue ;

2°) L'enrichissement de la représentation sémantique en fonction du contexte du dialogue ; ces traitements étant de nature pragmatique (ce qui concerne l'attribution des références, la détermination des actes du dialogue et l'inscription de l'énoncé dans la structure du dialogue étant développé dans les autres tâches, ne sera pas repris ici).

Nous nous conformerons ici à . Ainsi dans la suite les termes sens littéral ou signification référeront à la représentation sémantique. Le mot sens ou les expressions sens complet ou sens contextuel référeront à la représentation obtenue par enrichissement de la signification en contexte.

Le terme phrase renvoie à un objet purement linguistique (mots plus structure syntaxique plus signification) alors que énoncé désigne une phrase munie de son contexte dans le dialogue.

Dans ces conditions l'entrée en dehors de tout contexte est constitué d'une ou plusieurs phrases alors que si l'on envisage cette entrée dans son contexte elle est constituée d'un ou plusieurs énoncés.

Traitements codiques

Deux séries de tâches reposant sur le code de la langue et de nature très différentes doivent être envisagées :

- la première consiste à reconnaître les phrases en tant que suites de mots,

- la seconde a pour but la construction des représentations sémantiques des phrases.

Reconnaissance de la phrase en tant que suite de mots

Dans le cas de la parole, une première série de tâches comporte d'abord, la construction de l'énoncé en tant que suite de mots avec :

- la réception et la paramétrisation acoustique,

- l'accès lexical sous un contrôle syntaxique et sémantique plus ou moins important.

Les méthodes utilisées s'appuient le plus souvent sur les modèles HMM (Hidden Markov Model).

Si l'entrée se fait au clavier les tâches correspondantes sont en principe plus faciles mais le traitement des erreurs de frappe et la désambiguïsation peuvent bénéficier de méthodes analogues.

Le point fondamental à ce niveau est le caractère incertain des phrases en tant que suite de mots. S'il s'agit de l'oral les raisons en sont :

- les performances phonétiques du locuteur,

- les performances de l'accès lexical en reconnaissance de la parole,

- l'intrusion d'éléments vocaux extralinguistiques (expressifs ou non).

Le traitement de l'écrit peut donner lieu à des représentations semblables notamment pour assurer une certaine robustesse par rapport aux fautes d'orthographe ou de frappe.

La représentation sémantique de l'énoncé

La phrase ?constitué de mots et, éventuellement, d'indicateurs syntaxiques et prosodiques (de ponctuations s'il s'agit de l'écrit)? admet une représentation sémantique construite à partir des contenus sémantiques des mots et de certains indicateurs prosodiques. La signification se déduit de cette représentation. Mais on est loin d'avoir réalisé un consensus sur les représentations sémantiques les mieux adaptées au langage naturel.

Il est souvent fait appel, sous une forme ou sous une autre, aux formalismes de la logique. Dans ce cas la représentation sémantique comportera des prédicats, des arguments, des quantificateurs, des connecteurs et des termes modaux.

Les prédicats se déduisent le plus souvent (pas toujours) des expressions verbales, les arguments des expressions nominales, les quantificateurs des expressions déterminatives et les connecteurs des expressions conjonctives. Il est clair que les contenus syntaxique et sémantique des mots jouent ici un rôle clé pour la transformation de la phrase en tant que suite de mots en représentation sémantique (autrement dit pour l'interprétation sémantique des phrases).

Comme nous l'avons dit, le résultat de l'étape précédente est incertain et ambigu, ce que peut traduire un graphe de mots. Ce caractère est maintenu dans les représentations sémantiques et l'on peut ainsi avoir des graphes de concepts analogue au graphes de mots pour représenter l'ensemble des possibilités sémantiques qui résultent des traitements précédents.

Les contenus lexicaux

Représentation phonologique

Le mot possède une représentation phonologique permettant de l'interpréter dans le mode oral. Cette représentation est reliée à la représentation phonétique par la composante phonologique. La représentation phonétique détermine la prononciation (dans l'émission) ou l'audition (dans la réception).

Représentation orthographique

La représentation orthographique permet de reconnaître le mot dans les textes. Le mode écrit et le mode oral peuvent fonctionner de manière monomodale (écrit ou oral seul) ou multimodale (coopération de l'écrit et de l'oral).

Morphologie. Mots fléchis vs. entrées canoniques.

Le mot peut être explicité en tant que combinaison des morphèmes : morphèmes lexicaux, suffixes, préfixes, infixes et désinences. La structure des mots composés relève aussi de la morphologie. Une entrée (lexicale) canonique représente plusieurs mots fléchis. Elle doit être munie d'un classe flexionnelle permettant de dériver les mots fléchis correspondants.

Il conviendra donc d'opposer les lexiques qui contiennent explicitement tous les mots fléchis (LexF) et ceux qui ne contiennent que les entrées canoniques (LexC) et pour lesquels les mots fléchis ne sont disponibles qu'après un traitement morphologique.

On notera que les mots fléchis rattachés à une même entrée canonique partagent beaucoup d'attributs syntaxiques (partie du discours), sémantiques (attribut/prédicat) et pragmatiques (performatifs par exemple).

Par ailleurs dans une langue flexionnelle comme le français il y a environ dix fois plus de mots fléchis que d'entrées canoniques. Le choix entre LexF et LexC peut difficilement être fait aux niveaux sémantique et pragmatique. Ainsi il est bien connu que les éléments d'une même classe flexionnelle ne partage pas toujours les mêmes attributs sémantique ou pragmatique. Dans chaque application particulière le problème restera donc posé.

Attributs syntaxiques

Le mot est caractérisé en tant que partie du discours : partie majeures ou lexicales (nom, verbe, adjectif ou adverbe) ou parties mineures (pronom, déterminant, préposition, conjonction, exclamation). Chacune de ces catégories se divise ensuite en catégories plus fines.

Cette catégorisation des mots au plan syntaxique contribue à la construction de la structure syntaxique de l'énoncé, donc au contrôle de sa correction grammaticale.

Les grammaires actuelles, et particulièrement LFG, GPSG ou HPSG, tendent à faire jouer au mot un rôle de plus en plus important dans les traitements syntaxiques car il se voit confier des contrôles divers opérant sur le reste de l'énoncé, le plus usuel étant celui de la sous-catégorisation introduite en grammaire générative. Ainsi par exemple les verbes seront sous-catégorisés selon leurs compléments essentiels, chaque sous-catégorie ne s'insérant que dans certains schémas de syntagme verbal.

Contenu sémantique

Aux mots sont attachées diverses significations qui participeront à la représentation sémantique de l'énoncé. Dans une phrase littéralement non ambiguë seule une signification par mot devrait survivre au jeu des contrôles mutuels que les mots exercent entre aux au sein de la phrase. Il est rare cependant que les ambiguïtés puissent être levées sans le recours au contexte. Le rôle des représentations lexicales sera alors de préciser comment un mot s'insère dans les représentations sémantiques : stratut prédicat/argument, catégorie ontologique, rôles sémantiques, quantification, argumentation, présupposition ?

Comme nous avons déjà dit, on est loin d'avoir obtenu un consensus sur ces questions complexes.

Les mots et la pragmatique

Peut-on parler de contenu pragmatique des mots ? La pragmatique décrit l'usage du système de la langue, système dans lequel sont inclus les éléments lexicaux. Ceux-ci sont donc éventuellement l'objet d'opération de nature pragmatique (par exemple : attribution d'un référent) mais n'auraient pas en eux-mêmes de contenu pragmatique. Le groupe a étudié quelques problèmes de pragmatique de ce point de vue : la référence virtuelle opposée à la référence actuelle, le rôle des mots dans la détermination de la force illocutoire des énoncés et l'encodage procédural de marqueurs dans le lexique.

La question principale qui en résulte est la suivante : faut-il accumuler les acceptions de mots et les encodages correspondants pour rendre compte de la diversité de leurs effets en contexte et selon les attitudes des interlocuteurs ? La réponse selon Grice serait plutôt négative : mieux vaut adopter des principes généraux chargés de contextualiser la signification des mots. Ce problème renvoie à une discussion complexe au plan théorique.

Lorsque le contexte en arrière plan est fixé les procédures encodées peuvent être spécialisées pour ce contexte. Ainsi par exemple un mot peut avoir un référent introduit dans le lexique une fois pour toute dans un cadre applicatif donné. Les marqueurs pourront aussi être associés à des procédures réduites (éventuellement nulle) selon ce qui est requis pour la conduite du dialogue de l'application.

Nous avons là potentiellement un lexique différent de celui qui est discuté dans les théories précédentes : d'une part le contexte est considéré comme variable et les valeurs référentielles ne sont pas encodées, et d?autre part on peut considérer un nouveau type de lexique qui incorpore des valeurs référentielles et spécialise ses procédures au contexte, autrement dit qui contient a priori des résultats pragmatiques. Les systèmes de dialogue homme-machine peuvent être amenés à utiliser de tels types de lexiques " actualisés ". Notons encore que les lexiques peuvent être actualisés dynamiquement dans une situation donnée de dialogue (le CRIN, TRILAN et l'IRIT ont revendiqué le recours à de tels lexiques).

Les contributions des équipes participantes

La coordination des travaux s'est effectuée au cours des différentes réunions DALI et pour lesquelles on se reportera aux comptes rendus. Mentionnons qu'une tâche lexique inter-groupe a ainsi été confiée à Damien Genthial. Voici maintenant les différentes contributions telles qu'elles se sont mises en place initialement puis au cours des différentes rencontre DALI.

Traitement des mots grammaticaux (TRILAN, IRIT)

Ces traitements ont portés plus particulièrement sur deux classes de mots grammaticaux :

- les connecteurs argumentatifs et dialogiques et plus généralement les mots ayant une fonction de marqueur pragmatique ; ils sont impliqués dans la structuration du dialogue

- les indexicaux qui permettent d'ancrer le discours dans la situation du dialogue par rapport aux personnes, au temps et à l'espace (les déictiques et les anaphoriques en particulier jouent un rôle important dans l'assignation des références).

L'équipe TRILAN a effectué un travail sur les marqueurs et connecteurs pragmatiques dans un corpus qui met en jeu deux utilisateurs d'un même logiciel de dessin, travaillant dans deux pièces différentes et qui doivent refaire ensemble un dessin. L'utilisation du logiciel Pilaf a permis d'obtenir une première analyse qualitative de ces dialogues.

L'équipe IHM-PT a de son côté procédé à l'enregistrement d'un corpus homme-homme sur l'aménagement d'un pièce cuisine (ce travail s'inscrit également dans le cadre du projet région IMAR : Interface Multimodale d'Applications Robotisées)

Ces corpus ont ensuite été annotés, puis soumis à une analyse statistique basée sur l'outil VortexLem développé à IHM-PT.

Traitement des mots pleins (IHM-PT et TRILAN)

Les mots pleins sont examinés surtout du point de vue leur définition et, plus précisément, de l'utilisation possible des structures de traits ou des graphes conceptuels.

Il s'agit de prendre en compte l'univers de la tâche pour dériver un "lexique pragmatique (ou sémantico-pragmatique)" en tant qu'instance d'un lexique sémantique (cf. §2.2.2.).

Un tel lexique ne peut pas être complètement figé. S'il est vrai que certaines informations peuvent être compilées a priori, comme par exemple les liens référentiels entre les mots du lexique et les représentations conceptuelles de la tâche, d'autres au contraire doivent être construites dynamiquement : de nouveaux termes peuvent apparaître, des acceptions nouvelles peuvent être imposées pendant un échange?

Un des aspects de cette question est celui de lexique sémantico-pragmatique capable d'apprendre et de s'améliorer en s'adaptant au contexte de l'application.

L'équipe IHM-PT s'est orientée vers l'expérimentation de modèles linguistiques fondés sur les structures de trait et l'unification. Une caractéristique de ces modèles est qu'ils permettent de faire jouer au lexique un rôle important. La constitution des entrées lexicales de ce lexique est basée sur le dictionnaire explicatif et combinatoire (DEC) du français contemporain .

Lexique et décodage conceptuel (IRIT)

L'IRIT dans le cadre du programme européen MLAP a approfondi l'approche de la compréhension basée sur le décodage conceptuel.

La reconnaissance de la parole renvoie à des emplois du lexique discuté ci-dessus et la compréhension a pour entrée des graphes de mots munis de leur vraisemblance. Le décodage en segments conceptuels est basé sur l'hypothèse suivante : un énoncé réalise une série d'actes référentiels ou illocutionnaires appartenant à un ensemble prédéfini. Il peut aussi contenir des segments d'énoncé imprévus qui ne seront pas interprétés (ils sont réputés sans objet pour les buts poursuivis ?à tort ou à raison mais c'est un risque assumé).

Les actes illocutionnaires peuvent être des demandes, des contestations, des interventions phatiques, etc.

Les actes référentiels apportent des informations relatives à différents concepts : lieu de départ, date de départ? (par exemple "je pars de Toulouse1 demain2" réalise deux actes référentiels concernant l'un le lieu de départ (1), l'autre la date de départ(2)).

Les segments conceptuels sont des tronçons de phrase réalisant un acte. L'ensemble des tronçons réalisant le même acte A est le langage L(A) attaché à cet acte.

Il est à noter que ces segments conceptuels ne sont pas des cas au sens classique du terme.

Ce modèle soulève différents problèmes ; indiquons simplement ici :

- que l'hypothèse des réalisations des actes spécifié par l'analyse a été vérifiée sur les corpus que nous avons recueillis?il faut cependant admettre que théoriquement cette position ne serait pas tenable en toute généralité et sans précautions),

- qu'il est possible de modéliser ces langages conceptuels de manière performante en vue du décodage, de manière à produire des graphes de concepts analogues aux graphes de mots,

- que le sens (complet) peut être obtenu en attachant aux mots et aux concepts des procédures spécialisées pour l'application visée (cf.§2.2.2. 4° et 5°)

parfois triviales (exemple : "demain" ?> 1+date_courante)

parfois complexes (exemple : "le_premier" ?> rechercher liste la plus récente d'horaires, ?prendre premier_de_liste?).

Lexique et prosodie dans les dialogue oraux (CLIPS)

Le discours spontané et le dialogue sont analysés en vue de l'observation du lexique et de la prosodie. Ces deux composantes du discours sont caractéristiques de la langue orale.

Le lexique utilisé en communication orale est bien différent de celui mis en œuvre à l'écrit, notamment au niveau de l'ordre des éléments, de leur nature et de leur fonction. Dans un contexte de compréhension ou de traitement automatique de la parole spontanée, il n'est donc pas possible d'utiliser des systèmes et/ou des procédures de l'écrit.

L'analyse de corpus oraux enregistrés à conduit à concevoir de nouvelles classes lexicales, regroupant principalement les "appuis du discours". Les principales classes sont les connecteurs linguistiques, les particules phatiques de maintien de contact, les particules phatiques de prise de parole, les présentatifs, etc. Certains éléments ont, à l'oral, une fonction qu'ils ne remplissent jamais à l'écrit (et vice versa), ce qui rend impossible toute analyse lexicale automatique (et donc toute désambiguisation éventuelle) qui n'aurait pas pris en compte leur spécificité. Ces éléments ont été répertoriés dans un "dictionnaire d'analyse des éléments lexicaux en contexte" selon leur nature et/ou leurs fonctions.