LIGLaboratoire d'Informatique de Grenoble

RAPPORT D'ACTIVITE  de la période 1970 à aujourd'hui

Jean Caelen, Directeur de recherches au CNRS

Dernière mise à jour : 2015

Plan du rapport :

Résumé et point forts

Recherche au laboratoire CERFIA (Toulouse)

      Modélisation de l’oreille

          Traitement du signal vocal

          Décodage acoustico-phonétique

          ARCANE : Acquisition et Recherche de Connaissances Acoustiques dans un Noyau Evolutif

         

 

Recherche à l’ICP (Grenoble)

      SIDOC : Système d’Informations d’Objets et Connaissances acoustiques

          Reconnaissance, compréhension et dialogue

          Dialogue multimodal et interaction verbale


La direction du GdR-PRC Communication Homme-Machine

Recherche au laboratoire CLIPS-IMAG (Grenoble)

      Reconnaissance robuste de la parole

          Dialogue homme-machine multimodal

 

La création de l’équipe MultiCom

La création de l’équipe-projet LUCE (Laboratoire Usage, Conception, Evaluation)

La direction du laboratoire CLIPS

Recherche au LIG et à l'institut Carnot (Grenoble)

 

Activités d’enseignement

RESUME ET POINTS FORTS : principaux résultats obtenus

1971-1979 :   Modélisation de l’oreille. Ce travail pionnier pour l’époque, a conduit à un modèle mathématique permettant d’analyser le signal vocal sur les 24 bandes critiques de l’oreille. Il est à noter que les coefficients MFCC ou PLP utilisés aujourd’hui en analyse du signal vocal dérivent de ces recherches sur l’audition.

1977-1986 :   Décodage acoustico-phonétique. Ce travail a conduit à une description précise et une modélisation des phonèmes du français à l’aide d’indices et de traits acoustiques. Les résultats ont été essentiels pour la reconnaissance de la parole par des automates, mais aussi pour la modélisation acoustique des sons du français.

1982-1988 :  Fouille de données et apprentissage de connaissances acoustico-phonétiques. Ce travail a conduit à la mise en place d’un logiciel de gestion de connaissances (ARCANE puis SIDOC) permettant de capitaliser des connaissances de nature phonétique. Il a été mené en parallèle au décodage acoustico-phonétique et soutenu par de nombreuses actions du GRECO Communication Parlée puis par les premiers projets européens d’ESPRIT I concernant l’acquisition et l’étiquetage de corpus.

1989-aujourd'hui :  Dialogue multimodal. Ce travail a été précurseur en France. Il a contribué à un essaimage important dans les laboratoires français et m’a permis, grâce à la direction du GdR-PRC Communication Homme-Machine, d’asseoir ce domaine de manière pérenne. On peut noter que la « multimodalité » a pris une envergure européenne et se trouve au centre de thématiques ou d’appels d’offres récurrents depuis quelques années.

1995 :   Participation à la création du laboratoire CLIPS-IMAG. La création s’est faite autour de la communication homme-machine en général (et du traitement du langage en particulier)

1995-aujourd'hui : Conception et évaluation de systèmes interactifs orientées usage. La création de l’équipe MultiCom et de sa thématique de plate-forme d’expérimentation connaît actuellement un grand retentissement depuis l’éclosion du thème « usages » dans le milieu de la recherche et de l’industrie. La création s’est faite à point nommé pour être maintenant totalement opérationnelle. J’ai animé en 2001-2002 l’action spécifique Conception Participative du département STIC du CNRS ce qui marque bien l’intérêt du CNRS dans ce domaine.

2003 : Création de l’équipe projet LUCE (Laboratoire Usage, Conception et Evaluation). Cette équipe concrétise les derniers développements en matière d’usage et d’ergonomie effectués par MultiCom. Son existence démontre l’originalité de l’approche multidisciplinaire usage/ergonomie centrée sur l’ingénierie, la sociologie, l’ergonomie et l’économie.

2007 : Participation à la création de l'Institut Carnot LSI (Logiciels et Systèmes intelligents), dont je suis actuellement directeur adjoint. Ma recherche future s'oriente vers l'interface dans le bâtiment intelligent : formalisation de la notion de confort multisensoriel et application aux interfaces tangibles.

Quelques fonctions liées à la recherche

Création et direction d'équipes (depuis 1980) : IRIT-Toulouse puis ICP-Grenoble (a) Traitement de la parole, (b) Dialogue multimodal, (c) Conception et évaluation des systèmes interactifs (usages et ergonomie) Direction de l’équipe GEOD puis de l’équipe MultiCom au CLIPS

Direction du GdR-PRC CHM (1992-1997) et membre de l’équipe de direction du GdR I3 (depuis 1998)

Directeur adjoint du laboratoire CLIPS (1995-1999) et contribution à la création de ce laboratoire

Direction du laboratoire CLIPS-IMAG (2000-2006) et membre de l’équipe de direction de l’IMAG

Direction adjointe de l’institut Carnot LSI (depuis 2007)

Expert ou membre de comité scientifique des programmes RNRT, RNTL, Travail, Cognitique, PREDIT

Animateur de groupes de travail (à l’OFTA), d’actions spécifiques (CNRS), d’actions de recherches coordonnées (AUF et MRT), organisateur d’écoles thématiques (1993, 1995, 1998, 2006)

Evaluateur de projets (Canada, Europe, France) et de laboratoires (IRIT, ICTT, PSI)

Relecteur de revues et de congrès, comité éditorial d’Intellectica, créateur et rédacteur en chef de la revue RIHM (jusqu’en 2005)

L’innovation et la valorisation : j’ai contribué à la création de l’entreprise Novadis Services en 1998, de la société Dmailer en 2000, de la société FIDEO en 2006.

 

RECHERCHE

 


1) Laboratoire CERFIA à Toulouse (1970-1986)

 

    Les conclusions du projet ARPA-SUR (U.S.A. 1970-1976) — toujours d’actualité — avaient mis l'accent sur l'importance du décodage acoustico-phonétique dans les systèmes de reconnaissance de la parole continue. Ces conclusions ont conforté l'orientation que j'avais prise dès 1970, avant même la publication de ces résultats, et m'ont incité à approfondir la reconnaissance de la parole sous l’angle du décodage acoustico-phonétique, sous plusieurs aspects différents :

 

·   recherche de nouvelles méthodes en traitement du signal (modèles d'oreille notamment),

·   extraction d'indices et de traits pertinents indépendants du locuteur,

·   segmentation de la parole en unités objectives,

·   analyse phonétique fine (structure temporelle, transitions, cibles, trajectoires, etc.),

·   développement de bases de données et de connaissances acoustiques et phonétiques (mise en œuvre du système ARCANE),

·   apprentissage de règles phonétiques,

·   expertise en lecture d’indices acoustiques et systèmes experts de décodage automatique,

·   mise en œuvre de systèmes pour la reconnaissance de mots isolés et la parole continue (systèmes MILOS et ARIAL I et II).

 

    Ces 16 années ont été placées sous cet éclairage mais ont présenté au cours du temps, de nombreuses facettes : le traitement du signal et la physiologie de l’audition, les bases de données, l’expertise phonétique, l’intelligence artificielle. Mes recherches ont eu le soutien du GRECO-CNRS "Communication parlée" et se sont organisées autour de contrats et de collaborations industrielles (Elan Informatique, RENIX, Texas Instruments France) ou aidées par des organismes publics (ADI, ANVAR, CNET, CNRS, DRET, MRT). Elles ont conduit à des réalisations logicielles et matérielles (carte de reconnaissance de la parole en mots isolés en 1985 par exemple).

       1.1. Le modèle d'oreille

 

1970-1974 :  J’ai travaillé sur la modélisation de l'oreille externe et moyenne puis de l'oreille interne (cochlée), en décrivant la propagation des ondes acoustiques dans les structures vibratoires de l'oreille (liquides périlymphe et endolymphe, membranes), à l'aide d'équations différentielles. Ces équations modélisent:

·   la propagation de l'onde de pression aérienne dans l'oreille externe,

·   la vibration  du tympan et de la chaîne ossiculaire jusqu'à l'étrier,

·   la propagation de l'onde acoustique dans la rampe tympanique et vestibulaire (cochlée),

·   les vibrations de la membrane basilaire.

 

    Pour la résolution numérique, plusieurs schémas aux éléments finis ont été testés et leur convergence a été étudiée en fonction des valeurs des paramètres et des conditions initiales et aux limites. Le modèle retenu est non-linéaire, le couplage bidirectionnel de la membrane basilaire généralise le modèle de Kim [Kim, 1973]. Ses déformations mécaniques sont conformes aux observations de von Bekesy [Bekezy, 1960] faites sur des cochlées réelles.

1974-1979 :  Pendant cette période, j’ai complété le modèle d’oreille par :

·  l’étage de prétraitement opéré par l’oreille externe et l’oreille moyenne, modélisé  par un filtre adaptatif (réflexe stapédien),

·  un modèle de transduction des cellules ciliées externes et internes, les unes fonctionnant comme des filtres  large bande (dérivateurs), les autres fonctionnant comme des intégrateurs-compresseurs (effets de masque spatio-temporels et inhibition latérale),

·  un modèle de  système  afférent  périphérique  modélisant les potentiels d'action et de sommation le long de la cochlée,

·  un modèle de système efférent périphérique permettant d'inhiber les informations afférentes (atténuation ou augmentation des contrastes),

·  un modèle de codage impulsionnel de l'information acoustique dans le premier  neurone du nerf auditif.

 

        A partir des hypothèses connues en physiologie, plusieurs modalités de codage ont été testées sur le modèle : cette approche a permis de le stabiliser puis de l’adapter au traitement de la parole (réduction aux 24 bandes critiques). Le modèle intègre donc les fonctions essentielles de l'audition périphérique et est conforme aux spécifications publiées par Klatt [Klatt, 79].

 

1983-1985 : Dans le cadre de la collaboration université/hôpital, la nécessité de préciser le fonctionnement des cellules ciliées en vue de l'aide au diagnostic et de l'implantation cochléaire m’a conduit à développer la modélisation des cellules ciliées en fonction des réponses connues le long du tronc cérébral.

 

     L'expérimentation a été faite sur le cobaye à partir de stimuli sonores effectués sur l'oreille droite puis sur l'oreille gauche. On a mesuré les réponses contro- et ipsi-latérales sur le tronc cérébral. En supposant, dans un premier temps les réponses additives, on a “décorrélé” les réponses des deux oreilles prises séparément. On a recommencé la même expérience pour des sons simultanés sur les deux oreilles. On a supposé que les réponses obtenues sont une sommation des potentiels au niveau des noyaux cochléaires et du colliculus avec une composante d'interaction binaurale. En ce qui concerne les cellules ciliées, on a supposé que la courbure des cils, dépendant de la pression sonore et de la position des cellules le long de la membrane basilaire, règle l'ouverture de canaux à la base des cils. Ces canaux établissent un échange ionique entre le milieu extérieur (endolymphe) et l'intérieur de la cellule. J’ai décrit ces mécanismes en terme d'équations électro-chimiques, ce qui a permis de simuler les potentiels d’action dans la fibre nerveuse (ce travail a été approfondi dans la thèse de A. Meddeb que j’ai encadrée).

            1.2.  Le décodage acoustico-phonétique

 

1974-1979 :  Dès la mise au point du premier modèle d'oreille en 1974, j'ai commencé des recherches en reconnaissance de la parole en utilisant ce modèle comme analyseur vocal dans le projet ARIAL I (Analyse et Reconnaissance des Informations Acoustiques et Linguistiques) et en recherchant des indices pertinents pour le décodage phonétique. J’ai développé des méthodes originales de détection d’indices acoustiques (friction, nasalité, occlusion, implosion, explosion et indices fermé/ouvert, antérieur/postérieur, bémolisé/diésé, compact/écarté), à partir des valeurs des formants dans un premier temps (méthodes assistées par des logiciels d’analyse de données multidimensionnelles).

 

          A l'aide de ces indices, la reconnaissance phonémique ascendante fournissait un treillis de phonèmes avec des performances de 75% à 85% (selon les phonèmes) pour quelques locuteurs en parole continue avec les limitations suivantes :

-critique A- le système reposait sur les formants qui sont des paramètres délicats à mesurer,

-critique B- la segmentation produisait des "pseudo-phonèmes" mal définis sur le plan phonologique,

-critique C- les niveaux linguistiques ne contraignaient pas suffisamment l'identification phonémique par voie descendante,

-critique D- les connaissances acoustico-phonétiques prises en compte étaient trop parcellaires.

 

1979-1982 :  Partant de ces insuffisances, j’ai généralisé la notion d'indice en m'affranchissant de la détection des formants (critique A). De nouveaux indices ont été définis en ne considérant que la distribution de l'énergie dans le spectre (indices grave/aigu, fermé/ouvert, bémolise/diésé, compact/écarté, doux/strident, continu/discontinu). A posteriori ils se sont montrés robustes pour la segmentation en phones homogènes et pour l'identification des macro-traits.

 

       Pour la segmentation : devant la dualité concret/abstrait du phonème (critique B), j’ai jugé préférable de choisir une unité objective et infra-phonémique de nature acoustique : en effet il est plus facile, dans une perspective linguistique et algorithmique, d'assembler des segments que de les redécouper en cas d’ereur constatée a posteriori. Ceci était renforcé par l'idée que les modules linguistiques devaient agir au plus bas niveau sur le signal. Par conséquent une recherche a été développée pour trouver la meilleure segmentation possible. Une méthode utilisant le codage "delta" a été mise au point en s'inspirant du codage neuronal dans l'oreille: la segmentation produit donc des segments courts et homogènes, les phones homogènes. Notons que déjà à cette époque, j’avais préconisé l’usage de modèles neuromimétiques pour le traitement du signal (débat mené avec JP Changeux à Albi en 1982).

 

      Pour l'identification : les indices acoustiques ont été utilisés dans plusieurs laboratoires et comparés avec d'autres paramètres (LIMSI, CNET, ENST, Institut de Phonétique d'Aix, ICP) : ils présentaient à ce moment là une avancée intéressante dans le domaine et ont été longtemps utilisés (CNET, GIA, ICP, CERFIA) pour l'identification robuste des macro-traits.

 

1983-1985 :  Il est clair que ces indices acoustiques, de nature statique, ne décrivent pas la dynamique de la parole. C'est pourquoi j'ai proposé la notion de cible et de trajectoire acoustique (1985) en considérant la production de la parole sous un angle cinématique. Cette idée a fait son chemin et a conduit à des thèses que j’ai encadrées (P.F. Marteau et M. Piterman à l'ICP) tandis que A. Bimbot à l'ENST poursuivait une démarche similaire liée à la "décomposition temporelle" proposée entre temps par Atal [Atal, 84]. Le principe est de considérer que la parole est produite à l’intention de l’allocutaire et que le locuteur tente pour cela d’atteindre des cibles acoustiques en optimisant la trajectoire d’une cible à la suivante. On remarque que les cibles ne sont pas toutes atteintes si le débit d’élocution augmente. Le problème général du décodage acoustico-phonétique revient donc à inférer des cibles idéalement programmées mais non acoustiquement réalisées : c’est une autre manière de poser l’hypothèse de l’invariance, au niveau de la commande articulatoire et non plus au niveau de l’acoustique.

2) ICP - Grenoble (1986-1995)

 

J’ai obtenu en octobre 1986 un poste de chercheur CNRS à l’ICP de Grenoble, sur le profil « décodage acoustico-phonétique ». Dès mon arrivée à l’ICP, mes recherches se sont légèrement réorientées :

(a) d'une part en "représentation des connaissances" (d'ARCANE vers SIDOC-Parole) de 1986 à 1988,
(b) d'autre part, en reconnaissance, compréhension de la parole et dialogue homme-machine. La constitution d'une équipe plus nombreuse (dont j’ai eu la responsabilité dès ma prise de fonction à l’ICP) m'a amené à développer trois projets, DIRA, MULTIWORKS, MICRO et à initier un nouvel axe de recherche, pionnier en son temps, le dialogue multimodal (1987).

2.2. La reconnaissance, compréhension et le dialogue 1986-1993

 

      J’ai dirigé les travaux de l’équipe « Reconnaissance, Compréhension et dialogue » composée de 4 permanents et de 6 thésards en moyenne pendant cette période. Les travaux que j’ai personnellement menés se sont organisés autour de trois projets :

·   MULTIWORKS (MULTI-media WORK-Station, projet Esprit II n° 2105), était un projet de système de compréhension de la parole continue fondé sur des modèles mixtes (stochastiques et “basés connaissances”) et implanté sur une carte numérique réalisée en collaboration avec la société OROS,

·   DIRA (Dialogue Intelligent et Reconnaissance Automatique) était un projet de système multi-experts à base de connaissance et à stratégie planifiée. Ce système a été complètement évalué à et les résultats d’évaluation ont permis de concevoir le système multi-agents MICRO, développé dans le laboratoire CLIPS, dès ma mobilité,

·   le dialogue multimodal, nouveau paradigme d’interaction multisensorielle qui a permis d’ouvrir un champ de recherches autour de la communication homme-machine et des interfaces. ICPdraw, une des premières réalisations multimodale en France, a été mise au point en 1990. La seconde, ICPplan, a conduit à la thèse de M.L. Bourguet en décembre 1992.

 

    Dans le projet MULTIWORKS le système de reconnaissance de la parole continue a une architecture mixte : il est ascendant, markovien et guidé par une syntaxe déterministe (grammaire lexicale fonctionnelle) d’une part, et descendant, guidé par les connaissances phonologiques d’autre part. Il se décompose en deux modules:

1.a- reconnaissance de phrases en mode dictée (mots connectés) en utilisant un modèle de mot HMM (avec variantes) guidé par la syntaxe et la sémantique, et un module de vérification guidé par des connaissances phonologiques,

1.b- compréhension des messages de commande à l'aide de connaissances pragmatiques (voir ci-après).

         

      Ce système a été réalisé sur machine UNIX temps réel (Masscomp). Une carte de reconnaissance/synthèse a été développée en collaboration avec Bull S.A. et OROS partenaires du projet. Les résultats de reconnaissance atteignaient 94.6% dans une version prototype pour un langage de commande restreint (une centaine de mots) et plusieurs locuteurs. L'intégration du dialogue (système ICPdraw) a été faite dans la deuxième partie du projet (1991-1992) en collaboration avec le CRIN-Nancy.

 

     Dans le projet DIRA le système de compréhension à architecture “tableau noir” raisonne sur des connaissances provenant de diverses sources: acoustique, articulatoire, phonétique, phonologique, lexicale, syntaxique, sémantique et pragmatique. Ce système diffère de ses concurrents dans la stratégie de reconnaissance qui est opportuniste et auto-adaptable : j’ai travaillé sur une architecture multi-expert dont le superviseur planifie la stratégie en fonction de l'évolution de la reconnaissance le long de la phrase. C'est une idée qui permet de définir une stratégie dynamique et d'intégrer des experts hétérogènes (voir article joint). Les modules experts ont tous été testés (thèses de K. Nasri, H. Tattegrain et E. Reynier).

 

    C'est un système multi-experts distribué organisé autour d'une architecture de tableau noir. Les experts communiquent leurs informations à travers le tableau noir mais restent sous le contrôle du superviseur. Celui-ci est lui-même un expert qui gère les hypothèses dans ce tableau noir, planifie la stratégie et les tâches des experts, et fixe les points de rendez-vous (synchronisation sur les îlots de confiance). Les experts restent autonomes dans l'exécution de leur propre tâche dès que celle-ci est définie et activable. Ce sont:

·   le Décodeur Acoustico-Phonétique (D.A.P.) qui propose (ou vérifie) des macro-traits et des traits phonétiques à partir du (ou sur le) signal d'entrée,

·   l'Analyseur Lexical (A.L.) qui par des accès variés au lexique propose (ou vérifie) des mots,

·   l'Analyseur Syntaxico-Sémantique (A.S.S.) qui contrôle la cohérence des groupes syntagmatiques au niveau syntaxique et sémantique ou prédit le ou les prochains mots possibles,

·   le module de compréhension (C.) qui contrôle les groupes de sens, gère le dialogue et construit les informations pour l'interface de communication avec l'application. Les tâches prosodiques sont distribuées à ces 4 experts selon leur spécificité --par exemple la microprosodie est traitée au niveau du DAP tandis que les marqueurs de syllabes et de mots sont traités au niveau de l'analyseur lexical.

·   le superviseur (Sup) lui-même qui fonctionne comme un planificateur de tâches.

 

      Chaque expert dispose de ses propres sources de connaissances qui sont:

·   un ATN (Augmented Transition Network) syntaxico-sémantique (ATN-S/S) compilé,

·   le réseau lexical de l'application (LEX-A), également compilé à partir d'un lexique universel LEX-U (type BDLEX) et de règles phonologiques R-PHON, --ceci est possible dans la mesure où le vocabulaire est limité (moins de 1000 mots),

·   les règles acoustico-phonétiques mises sous forme de Réseaux Phonétiques RP, indépendantes de l'application et multilocuteur pour la partie "macro-structure"

·   le modèle de dialogue MD,

·   les données sur l'environnement qui transitent par le tableau noir (identité du locuteur si elle est connue, conditions d'acquisition, etc.).

 

      Le dispositif de contrôle du tableau noir est pris en charge par le superviseur lui-même. Par contre les experts communiquent avec le superviseur sous forme d'envoi de messages. Ces messages sont de deux sortes: (a) du superviseur vers l'expert X pour lui communiquer les tâches à exécuter, le mode et les contraintes d'action, (b) de l'expert concerné au superviseur pour lui communiquer les variables de contrôle de fin d'exécution. Chaque expert dispose bien sûr d'une mémoire de travail à court terme.

         

     Ce projet, a commencé en 1988 et s’est achevé en 1994. Une maquette complète du système, écrite en Prolog, a été réalisée. Des recherches sur la représentation des connaissances se sont poursuivies dans ce cadre, notamment autour de l’élicitation des connaissances (thèse de M. de Leeuw). Des tests de performance ont été réalisés et une évaluation a été entreprise. A l’issue de cette phase, ayant analysé les défauts et insuffisances du système (surtout au niveau des stratégies trop monolithiques et de la fragilité du développement des hypothèses en début de mot ou d’une adaptation de stratégie en cours de reconnaissance impossible, etc.), je me suis orienté vers des techniques d’intelligence artificielle distribuée (projet MICRO décrit ci-après).

2.3. Le dialogue multimodal et l’interaction verbale

 

          En 1989 j’ai initié une nouvelle voie de recherche : le dialogue multimodal (réalisation de ICPdraw et ICPplan  éditeurs multimodaux pour la conception et interface d’un robot mobile de surveillance dans le projet grenoblois du PRC “Communication Homme-Machine”). Cette nouvelle recherche m’a permis :

·   d'introduire la pragmatique (actes de langages, structure du dialogue) dans le dialogue, autour d’un modèle unifié de l’action,

·   d'étudier des problèmes réels de dialogue (au niveau de la langue, des mécanismes d’interaction, etc.)

·   d’étudier la communication sous un angle cognitif et ergonomique,

·   d’attirer la communauté française dans ce secteur.

         La recherche s’est présentée sous deux aspects :

·        Une recherche fondamentale sur l’étude du dialogue multimodal (aspects cognitifs, multisensoriels et linguistiques),

·        Une recherche appliquée orientée vers la réalisation de maquettes.

 

         J’ai créé à ce moment avec J. Coutaz au sein du GdR-PRC Communication Homme-Machine, un pôle de recherches multidisciplinaire réunissant les compétences nécessaires pour étudier et modéliser la multimodalité (voir le rapport d’activités d’administration de la recherche). Des équipes de génie logiciel mais aussi en facteurs humains ont été ainsi réunies dans un même programme de recherche.

 

Les travaux ayant abouti à ce moment-là en 1994 à l’ICP ont été :

·   Le recueil et l’analyse automatique de corpus au niveau lexical et pragmatique (articles aux congrès COLING, ARC, revue “Faits de Langue”, revue “Communication Parlée”). Les corpus ont été analysés à la lumière des principes de l’école structuraliste de Genève et de l’école pragmatique anglo-saxonne (thèse d’A.L. Fréchet co-dirigée par M.A. Morel et D. Vernant)

·   Le développement d’outils d’analyse automatique de la langue (thèse de J. Ménezo co-dirigée par J. Courtin)

·   L’analyse du plan d’activité d’usagers placés en situation de résolution de problèmes (thèse de N. Ozkan co-dirigée par A. Bisseret)

·   La définition et la réalisation d’une architecture logicielle multimodale pour une interface homme-machine (thèse de M.L. Bourguet) de dessin architectural


3) Laboratoire CLIPS - Grenoble (1995-2007)

 

En 1995, lors de la restructuration de l’IMAG, j’ai saisi l’opportunité d’intégrer un nouveau laboratoire dont j’ai contribué à la création avec Y. Chiaramella et C. Boitet. Il s’agissait pour moi de rejoindre des équipes travaillant sur la langue naturelle et l’interaction homme-machine. Ces équipes pouvaient m’apporter des collaborations nouvelles dans le champ de la reconnaissance vocale et du dialogue multimodal. J’avais d’ailleurs antérieurement des collaborations avec l’IMAG depuis 1989 (avec J. Coutaz, J. Courtin et C. Boitet).

J’ai dirigé l’équipe GEOD de 1995 à 2000, je ne décrirai dans la suite que mes activités propres de recherche au sein de l’équipe GEOD, et non pas celles d’encadrement proprement dit  de la recherche.

3.1. La reconnaissance robuste de la parole.

 
Un système de reconnaissance de la parole doit pouvoir être efficace et donc robuste dans des domaines d’utilisation les plus vastes possibles. On peut rechercher cette robustesse de plusieurs manières en utilisant toutes les informations disponibles dans l’environnement, dans la tâche ou dans la langue. De plus, pour des applications utilisables en interaction homme-machine, il est indispensable que le système fonctionne en "temps réel". Ce double jeu de contraintes m’a conduit à concevoir un système de reconnaissance s’appuyant sur quatre ensembles de modules :
(a)   
un ensemble de modules acoustiques de prétraitement, de rehaussement de la parole (méthode de séparation de sources), de filtrage des signaux sonores en provenance de l’environnement et non pertinents pour la parole, et de fusion avec des informations redondantes et/ou complémentaires venant de l’extérieur (images, gestes, etc.)
(b)   
un module de reconnaissance utilisant les méthodes qui se sont révélées les plus performantes : les chaînes de Markov (par mots ou par phonèmes selon les applications),
(c)   
un ensemble de modules linguistiques, analyse sémantique et lexicale, pilotés par un module de filtrage qui contraint les solutions linguistiques en fonction de l’avancée du dialogue,
(d)   
un ensemble de modules rejetant les séquences les plus improbables après vérification prosodique à l’aide d’un transducteur symbolique.

 

L‘architecture du système est le suivant (fig. 1) :

                                                            Fig. 1 : Ensemble des modules du système de reconnaissance robuste recherché.

 

1.      Modules acoustiques

Il est nécessaire d’améliorer le rapport signal/bruit pour augmenter les performances du système de reconnaissance. Pour cela une capture du son sur deux voies permet d’appliquer des algorithmes dits de séparation des sources lorsque l’environnement est particulièrement bruyant. Cette méthode a été testée et implémentée sur DSP. L’intérêt de la prise de son stéréo est aussi de pouvoir localiser les sources dans l’environnement, pour des applications qui le nécessitent (médiaspace par exemple).

Le filtrage est une opération sur le signal rehaussé qui s’appuie sur la reconnaissance des bruits environnants à partir de leurs traits caractéristiques. La reconnaissance des bruits ambiants permet une meilleure adaptation du système de reconnaissance de la parole. Ceci a été mis en œuvre à travers des algorithmes génétiques d’adaptation (thèse d’A. Spalanzani).

Il est également intéressant d’utiliser plusieurs sources d’informations synchrones (par exemple le mouvement du visage du locuteur et sa voix) pour constituer un vecteur plus robuste du phénomène à analyser. L’opération de fusion de ces sources est effectuée par un réseau de neurones (H. Kabré).

2.      Moteur de reconnaissance

Le système de reconnaissance développé (thèse de M. Akbar et de D. Vaufreydaz) utilise un moteur HMM (Hidden Markov Model) à modèle de mots ou de phonèmes. Ce module produit plusieurs hypothèses en sortie, sous le contrôle du module d’analyse sémantique qui limite la combinatoire de recherche. Nous visons un vocabulaire large pour une application de renseignements touristiques multilocuteur. Nous utilisons pour ce système, l’environnement de développement Janus III (de Carnegie Mellon University et de l’université de Karlsruhe) en coopérant étroitement avec ces universités. D’importantes bases de données sonores ont été enregistrées en coopération avec le laboratoire CSLU (Oregon) et AT&T en juillet 1997 (enregistrement de 300 locuteurs) puis en 2000 dans le cadre d’un contrat avec l’université de Karlsruhe.

J’ai également exploré deux voies de recherche sur les systèmes mixtes de reconnaissance : un système HMM-règles phonétiques (thèse d’O. Delemar) qui n’a pas donné les améliorations escomptées (car il est très difficile de prendre une décision lorsque les deux sous-systèmes entrent en conflit), et un système HMM-NN (thèse de S.A. Sélouani). Dans ce dernier système, le réseau de neurones (NN) additionnel permet d’opérer une préclassification des phonèmes avant la reconnaissance par HMM.

3.      Modules linguistiques

Pour traiter les phénomènes linguistiques liés à la parole spontanée, les contraintes syntaxiques paraissent insuffisantes. J’ai préféré orienter une analyse micro-sémantique (thèse de J.Y. Antoine) qui, en échappant au critère de la régularité syntagmatique, permet d'analyser en détail la structure des énoncés oraux en surmontant les phénomènes de reprise, d'hésitations, et d'irrégularités propres à la parole. Le module mis en place, basé sur des réseaux de neurones en couches, contraint la recherche du module HMM et permet surtout d’obtenir une analyse linguistique complète des séquences de sortie. Ces travaux ont été prolongés dans deux directions, d’une part autour de grammaires de dépendance (collaboration entre l’équipe GETA et GEOD, thèse de Z. Kurdi) et d’autre part autour de structures de réseaux de neurones qui supportent un apprentissage automatique (DEA de L. Dérouard encadré par J.Y. Antoine et D. Memmi du laboratoire Leibniz/Imag).

4.      La ré-estimation des hypothèses et le rejet

Pour filtrer et hiérarchiser les hypothèses, une phase de rejet est nécessaire dans le système. Pour cela, les hypothèses de séquences sont transcrites dans une représentation phonétique dans laquelle le module prosodie vient apposer des marques. Ces marques prosodiques et phonétiques permettent de vérifier que la séquence reconnue est cohérente (thèse de B. Caillaud). La procédure de rejet élimine les séquences les plus improbables et celles qui sont incohérentes en regard de la prosodie (frontières de mots mal respectées par exemple) ou en regard de la phonétique. Une autre approche a été suivie, en utilisant les formalismes des grammaires TAG et dérivées (thèse de D. Roussel). Cette approche ne permet pas de lever toutes les ambiguïtés.

 

Sous ma direction, l’équipe GEOD a réalisé un système de reconnaissance de parole continue (système RAPHAEL). Ce système a été intégré dans diverses applications du laboratoire (projet COMEDIR et projet C-STAR). Il est développé sur l’environnement Janus III qui permet de traiter de grands corpus d'apprentissage et de test.

3.2. Le dialogue homme-machine multimodal

Le dialogue homme-machine multimodal est mon deuxième domaine d’activités en termes de recherche de base (modélisation du dialogue) et de réalisation de systèmes (interfaces multimodales). Ce sujet d’étude comporte deux volets : le dialogue et la multimodalité.

1.      Le dialogue
Le dialogue ne peut être considéré comme une activité entièrement planifiée : à chaque instant les interlocuteurs peuvent opérer des incidences ou des ruptures. Ils utilisent des stratégies variables qu’ils adaptent au cours du dialogue en fonction des buts à atteindre et des opportunités offertes par la situation. Le dialogue homme-machine n’a semble-t-il, d’utilité que dans un cadre opératoire, c’est-à-dire pour effectuer des tâches coordonnées (résoudre des problèmes, renseigner, aider à la conception, assister l’enseignement, etc.), ce qui place la communication dans une relation opérateur/tâche où la machine a un rôle collaboratif. Cette relation opérateur/tâche place le dialogue homme-machine dans un cadre actionnel. A travers et par le dialogue, la machine doit également apprendre de nouvelles actions ou optimiser son comportement face à de nouvelles situations (thèse de L. Villasenor). Pour cela, elle doit pouvoir inférer et gérer les buts de l’utilisateur, comprendre ses actes de langage, être capable de les interpréter en fonction de la situation pour finalement générer et effectuer l’action ou le plan d’action le plus adéquat. Ces considérations m’a conduit à réfléchir sur une logique dialogique sur le plan théorique d’une part, et à approfondir certains modules en vue de la réalisation d’un système de dialogue. Je travaille également sur l’évaluation des systèmes de dialogue. J’ai animé l’action de recherche concertée de l’AUPELF-UREF sur l’évaluation des systèmes de dialogue de 1996 à 2000.

Modélisation du dialogue

La logique dialogique (LD) que j’ai mise mis au point, suppose que les interlocuteurs construisent leurs dialogues de manière rationnelle — c’est-à-dire autour d’actions coordonnées — en respectant des conventions (sociales) normalisées. On suppose également que le dialogue est à la fois constructif (il conduit à la construction d’un but à partir des objectifs des interlocuteurs et à l’enrichissement des connaissances mutuelles) et co-interactif (les acteurs coordonnent leurs actions pour aboutir à un certain but). La LD s’appuie sur la logique modale qui traduit des hypothèses sur les états mentaux des conversants. Ces états mentaux résument l’état de connaissance (savoir, croire), le contexte de l’action (faire, vouloir), les choix et engagements (pouvoir, devoir). A chaque instant du déroulement du dialogue, le modèle fait l’hypothèse que le dialogue est dirigé par les états mentaux qui sous-tendent les actes (intentions, choix, engagements, etc.). Ce modèle a été prolongé récemment pour tenir compte de l’apprentissage de connaissances et de tâches pendant le déroulement du dialogue avec la machine (thèse de L. Villasenor). Pour cela je collabore avec D. Vanderveken, logicien de notoriété internationale, autour d’une logique dialogique étendue de la logique illocutoire qu’il a mise au point avec J. Searle.


Pragmatique du dialogue
Partant d’une discussion sur les présupposés et les implicatures conversationnelles, j'ai analysé l’approche de Ducrot en vue d’une intégration des topoï dans le modèle. d'interprétation pragmatique. J'y ajoute la prise en compte des attentes dans le dialogue (effets projectifs des actes interlocutoires). Je propose ainsi un modèle étendu de la SRDT (Segemented Representation Discourse Theory) dans le cadre spécifique du dialogue homme‑machine finalisé en introduisant systématiquement un nœud topique dans la DRS (Discourse Representation Structure) globale qui prend en compte le contexte commun aux deux interlocuteurs évoluant au cours du dialogue (ce qui a été dit, mais aussi ce qui est projeté par anticipation). Pour cela nous avons considéré (dans le master d'A. Xuereb) un cadre plus large que celui des présuppositions et des implicatures, en introduisant les effets projectifs des actes de dialogue. Nous nous sommes inspirés également de la notion de topos et nous avons validé manuellement ce modèle sur l’ontologie[1] que nous avons constituée dans le cadre d’un service de portail vocal d’entreprise (projet PVE, RNRT). Nous avons aussi spécifié un prototype informatisé : le moteur de l'interpréteur utilise un raisonnement hypothétique. Pour chaque tour de parole, les sites d'attachement disponibles de la DRS courante sont calculés ainsi qu'une hypothèse de relation pour chaque nœud encore non étiqueté. Les inférences sont déclenchées sur la base des hypothèses pour tenter une résolution. Une hypothèse est acceptée ou refusée suivant le succès ou l'échec de cette résolution. Une hypothèse acceptée ne sera alors plus réévaluée au tour suivant.



[1]  Cette ontologie couvre un domaine restreint de réservation de salle.

Contribution à la réalisation de systèmes de dialogue

Un système de dialogue peut être représenté autour de modules à gros grain comme sur la fig. 2. J’ai encadré des thèses contribuant à la réalisation d’un tel système multi-agent en approfondissant plus particulièrement les modules de gestion des buts et de génération. Pour le module de gestion des buts, nous avons utilisé la logique dialogique décrite ci-dessus. Le système Halpin a été réalisé et évalué (Thèse de J. Rouillard). Il est fondé sur un modèle de tâche de recherche documentaire. Ce système a été financé par la région Rhône-Alpes (projets ORION et NTI-SPI-Santé) et par le CNRS (projet RICOM dans le cadre du programme Télécom CNRS). De même le système de dialogue Mélina (Thèse de N.G. Nguyen) a été réalisé pour le projet RNRT PVE (Portail Vocal d'Entreprise), il permet à plusieurs interlocuteurs de négocier des ressources à travers un portail vocal qui joue le jeu d'une secrétaire virtuelle.

 

Fig. 2 : les principaux modules d’un système de dialogue : la gestion des buts liés à la tâche, la compréhension des énoncés du locuteur, leur interprétation en situation de dialogue et relativement aux buts à atteindre, le contrôle et la gestion du dialogue et enfin la génération des sorties (texte, parole ou graphique).

 

Pour le module de génération, j’ai utilisé la force illocutoire en génération (thèse de L. Imberdis) pour améliorer la pertinence des réponses de la machine (on sait qu’une réponse peu pertinente n’est pas compréhensible). Au niveau des interfaces homme-machine actuelles il y a donc nécessité de contrôler cette pertinence pour deux raisons : (a) pour diminuer le coût cognitif de l’utilisateur (avec des retombées évidentes sur la performance d’exécution de la tâche, la diminution de la fatigue, etc.) et, (b) pour respecter le principe ergonomique d’observabilité qui stipule que l’utilisateur doit avoir une conscience claire des véritables capacités de la machine. La solution proposée est de générer des réponses en tenant compte du contexte du dialogue, de la force illocutoire et des effets perlocutoires à produire sur l’utilisateur.

Evaluation des systèmes de dialogue

J’ai été engagé en tant qu'animateur, dans l’action internationale de l’AUPELF-UREF (1996-2000) intitulée « évaluation des systèmes de dialogue homme-machine ». Cette action visait à mettre en place des critères et des méthodologies d’évaluation, ainsi que des corpus d’évaluation pour permettre de diagnostiquer les systèmes de dialogue en développement dans les laboratoires. Mes travaux ont abouti dans la première phase du projet à généraliser la méthode DQR (J. Caelen, J. Zeiliger, J.Y. Antoine). Placée dans le prolongement de travaux récents en TALN, cette méthodologie est basée sur la définition et l'emploi de batteries de tests DQR (Donnée, Question, Réponse). Ces tests sont adaptés aux particularités du langage oral et aux situations de dialogue, et visent à vérifier la prise en compte individuelle par n'importe quel système de chacun des phénomènes linguistiques répertoriés. L'évaluation ainsi obtenue se définit comme qualitative, générique et portable (thèse de M. Ahafaf).

L'ensemble de mes activités de recherche sur le dialogue homme-machine a été publié dans le livre : J. Caelen et A. Xuereb, Interaction et pragmatique, jeux de dialogue et de langage, Hermès-Lavoiser, collection science informatique et SHS, 2007 (312 p.)

2.      La multimodalité

La multimodalité reste le sujet de mes recherches. Après avoir développé des démonstrateurs (ICPdraw et ICPplan dans les années 94) il était nécessaire en 1996 d’étudier le problème dans sa dimension psycho-cognitive, pour étudier l’adéquation des modalités sensorielles aux tâches, et plus généralement le comportement de l’utilisateur en situation simulée ou en situation réelle de travail avec une interface multimodale. Cela a conduit à deux thèses, celle de M.L. Zanello et celle de L. Catinis puis à une recherche en contrat avec la DGA : le projet FORUM (formalisation des usages multimodaux).

Dans le cadre de la communication homme-machine multimodale, divers formalismes catégorisant les actes multimodaux existent, dans lesquels tous les phénomènes ne sont pas pris en compte. L’objectif des recherches est d'étendre le formalisme CARE (Concurrence, Assignation, Redondance, Equivalence), pour lui intégrer le conflit dans un acte multimodal, l'intentionnalité, et la distinction entre multimodalité parallèle (portée par un acte multimodal) et séquentielle (portée par la tâche). L'intérêt de ce travail est de permettre une classification fine de la multimodalité dans un double but (a) d'évaluation de son usage, et (b) de formulation de recommandations ergonomiques relatives à l'intégration de la multimodalité dans les interfaces homme-machine. On a ainsi abouti au formalisme T-CCARE (Tâche - Conflit, Complémentarité, Assignation, Redondance, Equivalence) (thèse de M.L. Zanello). Diverses expérimentations en simulation ont été menées (projet Supratel en contrat avec le CNET, et tâche de dessin) ou avec de véritables interfaces multimodales (tâche de bureautique). Les résultats de ces expériences donnent une idée précise sur le comportement multimodal de l'utilisateur (thèse de L. Catinis).

3.3. Recherches transversales

 

Les recherches transversales, utiles aux objectifs ci-dessus, concernent les ressources et les outils liés aux bases de données sonores. Par outil il faut entendre aussi bien les outils de gestion, de recherche d’informations que des outils très sophistiqués d’alignement phonétique ou d’apprentissage automatique.

 

Des situations réelles sont nécessaires pour expérimenter les réalisations et ceci à tous les niveaux : pour la conception des systèmes en partant des usages et des observations, pour leur réalisation (méthode incrémentale) et enfin pour leur évaluation. Par expérimentation il faut comprendre donc aussi bien l’acquisition de corpus à partir de techniques aussi sophistiquées que le Magicien d'Oz ou le recueil de données « en situation » que l'évaluation qui nécessite une maîtrise complète des critères et des protocoles de test. L'expérimentation constitue la base méthodologique de la recherche visant à concrétiser des systèmes de dialogue homme-machine multimodaux et à valider leur pertinence dans divers domaines d'application. Il est également nécessaire de diversifier ces domaines d'application pour atteindre une vision générique des formes d'interaction.

 

Ce sont actuellement :

·        les renseignements touristiques,

·        la navigation dans les documents hypermédias et la recherche d'informations interactive,

·        le dialogue traducteur-usager,

·        les portails vocaux d’entreprise (projet PVE du RNRT),

·        les agents conversationnels expressifs (projet ACE du RIAM).

 

L’équipe GEOD a enregistré une quantité importante de données lors de diverses campagnes organisées en collaboration avec le laboratoire CSLU (Orégon) ou par des moyens propres. Des outils d’enregistrement contrôlé ont été développés  (système EMACOP de D. Vaufreydaz) ainsi que des outils de gestion des corpus.


 

4) La création de la plate-forme MultiCom

 

De la recherche au développement

Depuis plusieurs années le besoin de méthodes de conception et d’évaluation des interfaces (plus généralement des systèmes interactifs) se manifeste de plus en plus clairement et très explicitement chez de nombreux concepteurs en milieu industriel. Ce besoin est difficile à satisfaire car il nécessite la mise en place de compétences multidisciplinaires (praticiens, informaticiens, ergonomes, etc.). Les équipes de recherche sont couramment sollicitées par l’industrie pour l’étude des besoins et l’évaluation de l’adaptation des interfaces aux utilisateurs, sans parler de la conception ou de la sous-traitance d’un logiciel, forme de collaboration contractuelle plus traditionnelle. De façon très intéressante l’expression de ce besoin intervient maintenant très tôt : naguère encore la demande d’évaluation était faite (si elle l’était) en fin de conception du produit ; l’ergonomie étant considérée, à tort, comme un ajout a posteriori. Il apparaît maintenant une demande, plus consistante, d’une intervention des équipes dès les premières spécifications puis tout au long de la conception d’un produit. Ainsi trouve-t-on maintenant un autre type d’intervention des équipes de recherche chez les industriels : les études de conception et les pré-études d’usage.


Démarche méthodologique

La démarche méthodologique de MultiCom s’appuie sur l’expérimentation en situation de travail qui consiste à mettre en situation (réelle ou simulée), un ou des utilisateurs devant un système interactif, à les observer, à capturer des données comportementales et à les analyser. Le résultat des analyses permet ensuite de tirer des enseignements pour la conception, des éléments pour le diagnostic et des mesures pour l’évaluation des systèmes aux niveaux :

• de l’usage (valeur et signification d’usage),

• de l’utilisabilité (qualité ergonomique),

• de la faisabilité technologique (matérielle et logicielle).

 

MultiCom pratique plusieurs méthodes :

 

• la méthode prédictive qui opère à partir de théories cognitives et sociales et tient compte de la faisabilité technologique, pour concevoir le cahier  des charges et les spécifications du système,

• la méthode simulée (maquette virtuelle, technique d’observation en « magicien d’Oz », etc.) qui permet d’affiner les fonctionnalités et la conception de la maquette pendant le cycle de réalisation,

• la méthode directe d’observation sur la maquette, qui permet sa validation et son évaluation.

• la méthode indirecte comme le « reverse engineering » qui permet de vérifier que le système répond bien au cahier des charges et aux spécifications.

 

A cet effet, MultiCom dispose d'une plate-forme d’expérimentation pour :

• l’observation quantifiée de pratiques,

• l’observation et la capture de comportements humains,

• l’expérimentation de scénarios,

• la simulation de systèmes interactifs,

• l’évaluation des systèmes interactifs.

 

Par système interactif on entend tout type de système informatique dans lequel un opérateur humain est impliqué.


5) La création de l’équipe-projet LUCE (Laboratoire Usage, Conception, Evaluation)

 

« Les laboratoires d’usage…ont pour finalité de regrouper des équipes pluridisciplinaires afin de travailler ensemble sur la conception de nouveaux produits ou services à l’usage de professionnels ou de consommateurs grand public ». (extrait de CNRs-Info n°402 de juin 2002). A partir de ce constat il était nécessaire d’aller plus loin et d’intégrer la plate-forme MultiCom dans un contexte plus large. Après une année d’étude de faisabilité, j’ai créé l’équipe-projet avec Ph. Mallein, sociologue à Grenoble, après avoir animé avec lui une AS (Action Spécifique STIC) sur la Conception Participative orientée Usages (2001-2002).

Objectifs

          Les axes de recherche du laboratoire LUCE ont été ciblés sur la conception et l’évaluation de systèmes innovants pour les technologies de l’information et de la communication en ayant une approche pluridisciplinaire des problèmes. Ces axes sont :

 

Le laboratoire veut développer et faire connaître les outils d’analyse et les méthodes attachés à l’anticipation des usages des produits, services et procédés (PSP) générés par les nouvelles technologies ou par des applications nouvelles de technologies traditionnelles. L’anticipation des usages caractérise la spécialisation du laboratoire autour de l’appréhension de ces usages dès les phases de conception des nouveaux PSP, c’est à dire avant que ces derniers soient prêts à être mis sur le marché.

 

Un aspect essentiel de la finalité du laboratoire est que le développement des outils d’analyse puisse aider les décisions des entreprises, confrontées à une concurrence qui se situe de plus en plus dans la manière dont l’entreprise conçoit et même pré-conçoit les futurs PSP. C’est dans ces premières phases en effet que les entreprises se donnent les plus grandes chances de réussir mais aussi les plus grands risques  d’échec et il est certain que les unes et les autres varient selon les modalités techniques et organisationnelles de réalisation de ces phases. La tâche d’évaluation associée à l’analyse de l’usage et  qui s’attache aussi à la finalité du laboratoire trouve là une première raison d’être.

Antériorité

      L’antériorité du laboratoire se fonde essentiellement sur les collaborations étroites entre la MSH-Alpes et le laboratoire CLIPS-IMAG d’une part et sur les travaux récents menés dans l’Action Spécifique (AS) « Conception participative ». Prenant place dans le réseau thématique pluridisciplinaire du CNRS dit « Acceptabilité, ergonomie et usages des services des TIC[1], cette action spécifique du CNRS (Département STIC) a permis de recenser et de capitaliser ces outils, outils techniques et organisationnels, dans le but de favoriser la prise en compte de l’usage et des usagers dès les premières phases de la conception de produits, services, procédés issus des TIC. Un site Internet est dédié à cette opération : http://www-clips.imag.fr/multicom/User/asconception/blanc.html[2]

 
    Sous la double responsabilité scientifique de J. Caelen du département STIC et P. Mallein du département SHS, ces deux départements étant ainsi impliqués ensemble dans le laboratoire LUCE, l’AS a d’abord permis d’identifier les verrous scientifiques liés à une prise en compte interactive de l’usage  dans les processus de conception innovante dans l'industrie et les services. En second lieu et grâce à la rencontre des différentes disciplines (sociologie, ergonomie, des psychologie, économie, informatique), la réflexion sur les outils et méthodes d’intégration des usages dans la conception a confronté les nombreux points de vue indispensables à l’applicabilité de ces outils et méthodes et ceci si possible dès la pré-conception.

Une opération servant de point de départ : le projet RNRT[3] COUCOU

Cette opération qui sera réalisée sur 2003-2004 consiste à mettre en place une plate-forme de test et validation par les usages de maquettes constituées d’objets communicants et de services associés avec les buts suivants :

 

La réalisation de cette plate-forme sera coordonnée avec celle de la plate-forme LUTIN située dans la Cité des Sciences à la Villette. Les deux opérations s’inscrivent en effet dans le cadre d’une coordination scientifique et institutionnelle du réseau thématique pluridisciplinaire du département STIC du CNRS intitulé “ergonomie et usages”

 

Pour la mise à disposition d’outils et de moyens, la plate-forme proposée s’appuiera sur la plate-forme MultiCom du CLIPS-IMAG. La plate-forme  projetée apportera une innovation  majeure dans la mise en place d’outils permettant d’appliquer et de rationaliser les méthodes de conception participative qui sont apparues il y a une dizaine d’années en les couplant à une approche orientée usage et en l’appliquant au marché des objets communicants.

 

 

6) La participation à la création de l’institut Carnot LSI (Logiciels et systèmes intelligents) et  un projet de recherche sur le bâtiment intelligent

 

Un institut Carnot est un ensemble d’équipes de recherche structuré pour répondre aux objectifs suivants : Le label Carnot est destiné à favoriser la recherche partenariale, c’est-à-dire la conduite de travaux de recherche menés par des laboratoires publics en partenariat avec des acteurs socioéconomiques, notamment avec des entreprises.

Le Carnot LSI (Logiciels et Systèmes Intelligents)

Le Carnot LSI regroupe, autour de la thématique « Logiciels et Systèmes Intelligents », 21 équipes issues de laboratoires (Unités Mixtes de Recherche : LIG, TIMA, TIMC et VERIMAG) de quatre établissements publics - Université Joseph Fourier et Institut National Polytechnique de Grenoble,  CNRS et INRIA Rhône-Alpes - ainsi qu’une structure de valorisation, Floralis, filiale de valorisation et relations industrielles de l’UJF, SAS contrôlée par l’UJF.

 

Par ailleurs, les équipes Carnot ont toutes une visibilité internationale reconnue, et, pour certaines d’entre elles une réputation qui en font des pièces maîtresses du développement européen dans leur thématique.

 

Enfin, le caractère universitaire de l’Institut Carnot lui confère une valeur ajoutée forte en matière de ressourcement technologique: ceci lui permet par exemple de mettre en place des formations spécifiquement orientées vers les besoins de l’environnement local ou communautaire sur les thématiques de l’Institut, et de garantir ainsi un transfert plus rapide de la recherche fondamentale vers la recherche industrielle.

 

En termes de pertinence et d’adéquation avec le contexte local, l’institut LSI est complémentaire de deux initiatives qui se sont concrétisées en 2005 : le Centre des Technologies du Logiciel, bâtiment dédié à la recherche partenariale de proximité dans le domaine des systèmes intelligents, et le pôle de compétitivité à vocation mondiale Minalogic (http://www.minalogic.org/).

 

Par ailleurs, le thème « logiciels et systèmes intelligents » correspond à un enjeu économique et sociétal majeur depuis que les composants logiciels et les systèmes intégrés, tous conçus pour remplir des fonctions précises, sont assemblés et déployés dans le monde physique. On trouve ces composants par exemple dans les domaines du transport, des télécommunications, des appareils électroniques grand public, de la distribution d’énergie, du bâtiment, de l’assistance médicale et chirurgicale, des divers usages de la carte à puce ou des étiquettes électroniques. Au sein de ces grands domaines, l’Institut Carnot LSI se concentrera sur deux domaines technologiques et trois secteurs économiques :

-         les systèmes sur puces et leurs applications,

-         les réseaux de capteurs RFID,

-         le bâtiment intelligent,

-         les télécommunications,

-         la santé.

 

Les logiciels et systèmes considérés présentent au moins une des trois caractéristiques suivantes :

-         réactivité vis à vis de leur environnement, qui impose des temps de réaction appropriés et/ou une adaptation au contexte pour fournir des réponses toujours correctes

-         criticité, car toute déviation de leur fonctionnement nominal ou attendu est potentiellement génératrice de dégâts très importants

-         autonomie qui se traduit par l’obligation de fonctionnement sans intervention humaine.

 

Ces caractéristiques ajoutent énormément de complexité. Les défis scientifiques et technologiques majeurs se déclinent donc en cinq objectifs :

-         Embarquer l’intelligence

-         Garantir la qualité

-         Contrôler la performance

-         Assurer la pertinence des objets et des réponses des systèmes

-         Assurer l’interopérabilité d’éléments hétérogènes et la communication multi échelles.

 

Pour répondre à ces défis, l’Institut Carnot se définit un périmètre initial stratégique qui inclut les thèmes scientifiques suivants :

-         Modélisation, validation des systèmes complexes,

-         Production de code optimal,

-         Infrastructures logicielles et réseaux,

-         Conception et évaluation d’IHM,

-         Conception et intégration de chaînes logicielles de services.

Innovation dans le secteur du bâtiment intelligent

Le rythme d’introduction des technologies de l’information et de la communication dans le bâtiment va s’accélérer dans les années à venir, compte tenu de la demande croissante de la société en moyens de communication, de loisirs numériques, de santé, de sécurité, mais aussi d’optimisation énergétique ou de développement durable. Le « Bâtiment Intelligent » de demain prendra non seulement en compte l’infrastructure du bâtiment (enveloppe, énergie, réseaux, équipements), mais aussi ses différents utilisateurs et leurs besoins individualisés de communication et de services dans les trois sphères vie privée, vie sociale et vie professionnelle.

 

Le concept de « Bâtiment Intelligent » concerne l’ensemble des bâtiments, qu’ils soient neufs, en cours d’utilisation ou à rénover, qu’ils soient résidentiels, tertiaires, industriels ou hospitaliers. Ce marché à venir concernera donc aussi bien les acteurs du bâtiment (maîtres d’ouvrages privés et sociaux, architectes et bureaux d’études, entreprises de construction, gestionnaires, …) que les industriels, fabricants de matériaux, de composants et systèmes énergétiques, les fournisseurs d’énergie, et les acteurs de « l’espace privé » : télécommunications, multimédia, logiciel, micro et nanotechnologies, de la santé et de la sécurité, nouveaux services aux usagers, etc. Ces thématiques du « Bâtiment Intelligent » vont se retrouver à l’interface entre deux mondes et deux marchés qui aujourd’hui se recouvrent peu : celui des occupants des bâtiments, que ce soit dans le cadre de leur vie privée ou professionnelle, et celui du bâtiment (construction, infrastructure,…). Ces deux mondes – et leurs marchés respectifs – sont amenés à se rencontrer via le développement de technologies, qui doivent devenir communes.

 

Sur le plan industriel, la plus grande difficulté est dans l’intégration des nouveautés technologiques et des nouveaux produits vis-à-vis de l’ensemble des acteurs intervenant sur le bâtiment. En particulier une infrastructure commune, en grande partie de nature informationnelle, sera nécessaire pour permettre à des acteurs apparemment distants dans le processus d’interagir, et pour ouvrir les marchés de ces nouveaux produits.

RAPPORT D'ACTIVITE D’ANIMATION ET D’ADMINISTRATION DE LA RECHERCHE

 


1) Direction du GdR-PRC Communication Homme-Machine (1992-1997)

 

         J’ai succédé à Jean-Paul Haton à la direction du GdR-PRC CHM en 1992. Auparavant, je faisais partie du conseil de direction de ce GdR-PRC et était responsable (avec Joëlle Coutaz) du pôle Interfaces multimodales (depuis 1990). J’avais participé antérieurement aux activités des groupes de travail du GRECO Communication Parlée (depuis 1984) en animant des activités en traitement du signal parole, base de données et reconnaissance de la parole (il en avait résulté notamment la publication d’un livre Reconnaissance de la parole chez Dunod, avec 4 autres auteurs).

 

         La période 1993-1995 a correspondu à de grandes réformes des PRC : généralisation de la notion de groupe de travail et fonctionnement par projets (ce fonctionnement a préludé aux programmes actuels et aux ACI). J’ai donc refondu entièrement la structure du GdR-PRC et j’ai introduit de nouveaux thèmes de travail (réalité virtuelle par exemple). J’ai créé un nouveau pôle, traitement de l’écrit et du document, en ouvrant le GdR-PRC vers de nouvelles équipes et en introduisant une nouvelle structure de direction et d’animation. Durant la période de plein développement, le GdR-PRC CHM a réuni une communauté de 40 équipes, organisées en 5 pôles (Parole, Vision, Langue, IHM et Document) et 13 groupes de travail. Elle a mené trois projets (AMIBE, DALI, VIA) financés par le MENRT.

 

        J’ai organisé différentes manifestations scientifiques : écoles d’été en 1993 (Modalités dans les systèmes naturels et artificiels), en 1995 (Fondements en traitement de la parole et en 1997 (Interaction homme-machine). J’ai organisé un forum industriel en Rhône-Alpes en 1994. J’ai rédigé dans les rapports d’activité de 1994 et 1996, des rapports d’orientation scientifique  pour le MRT. J’ai rédigé un rapport de prospective pour les 25 ans SPI. J’ai animé un groupe de travail de prospective de 1996 à 1998.

1.1. Quelques pistes innovantes qui ont été mises en œuvre dans le GdR-PRC CHM

 

Les modèles actuels envisagent le problème de la CHM sous trois points de vue :

• la communication médiatisée par la machine (« groupware », télétravail, téléconférence, médiaspace, etc.)

• la communication multimodale et les interfaces à composante langagière et gestuelle généralisant les interfaces graphiques,

• la simulation comme support de communication et moyen d’interaction sur un réel virtualisé.

 

          CHM et langue

Dans le cadre de la CHM, la langue, qu'elle soit écrite ou orale, possède une place privilégiée car c'est un mode de communication qui permet à l'utilisateur, non seulement d'exprimer des commandes, mais aussi et surtout des intentions dans le cadre d'un environnement applicatif particulier. De plus, elle sert de support à de nombreuses connaissances disponibles aujourd'hui en ligne sur ordinateurs (manuels d'utilisation, documentations techniques...) dont l'exploitation demeure encore très rudimentaire. Un effort particulier a été fait pour déployer la langue dans le cadre de l’interaction (par exemple compréhension de la parole spontanée, intégration syntaxe-prosodie, dialogue homme-machine).

 

          CHM multimodale

Le geste est un moyen de communication égal à la langue naturelle pour une interaction efficace avec l’ordinateur. En toute rigueur, le canal gestuel implique une double fonction : capter les informations gestuelles et produire une rétroaction pour émettre des informations à destination de l'utilisateur (objet sélectionné, retour d'effort...). La vision est aussi un canal très utile pour la communication : expression corporelle, suivi de geste, attitudes, etc. Ces modes ont donc été pris en compte pour une communication synergique avec la machine. Une évaluation a été faite sur les possibilités offertes par les interfaces multimodales avec des ergonomes cognitifs. Des groupes de travail très actifs se sont réunis régulièrement pour faire émerger ces domaines.

 

          CHM médiatisante

Il est évident que les “autoroutes de l’information” mettent en première ligne le concept de CHM médiatisante, Communication Homme-Machine-Homme (CHMH), qui ouvre de grandes perspectives pour la recherche d’informations distribuées (sur WWW par exemple), pour la téléconférence, le télétravail et plus généralement pour les espaces de communication partagés. Mais il ne suffit pas de se connecter sur un site : il faut pourvoir y interagir de manière efficace. C’est là que la CHMH reprend ses droits et sa spécificité qui sont d’offrir des moyens de communication adaptés à la tâche. Le travail collaboratif et la réalité augmentée ont été des domaines initiés et entretenus au sein du GdR-PRC.

 

          CHM et virtualités

Souvent appelé infographie (tout du moins pour les aspects industriels centrés sur la génération), le domaine de la réalité virtuelle dont le cœur est l'image numérique, représentation numérisée de ce qui sera présenté à l'écran ou de ce qui a été obtenu à partir d'un capteur quelconque, regroupe cinq activités complémentaires : l'acquisition de l'image, la visualisation, la synthèse, l'analyse ou l'interprétation d'image. Ces deux dernières activités nécessitent l'introduction de modèles (géométriques par exemple) dont le choix est souvent dicté par l'application : les modèles utilisés pour représenter des bâtiments en architecture, des pièces manufacturées en CAO (Conception Assistée par Ordinateur), des surfaces naturelles en géologie ou médecine ou des caractères pour l'édition de documents sont évidemment différents même s'ils utilisent localement des techniques communes. Ainsi la réalité virtuelle apparaît comme un puissant d’outil de simulation qui permet au concepteur d’anticiper sur la réalisation, de percevoir et donc d’agir sur l’objet : c’est à ce moment qu’elle s’allie avec la CHM. Un atelier a réuni les synergies universitaires sur ce point autour d’applications concrètes et a permis de contribuer à la création d’équipes.

1.2. Impact

        Sur les plans technique et socio-économique, la CHM est en passe de prendre une importance considérable. Dans les faits, le concept de station de travail individuelle et connectable en réseau, disposant d'excellentes possibilités graphiques et d'entrées-sorties élaborées, ne peut que se développer dans l'avenir. Les utilisateurs ne se satisfont plus de devoir se plier à des contraintes, si celles-ci n'ont pas de véritable justification (limites théoriques, prix...). Dès à présent, le coût logiciel des interfaces est supérieur de moitié à celui de l'application proprement dite. La puissance de calcul des machines n'est plus un problème, sauf dans des cas bien précis et limités. Le travail collaboratif va également se développer dans les années proches ce qui représente de nouveaux problèmes de communication à résoudre entre les usagers et/ou la machine. Ainsi c’est le marché “grand public” qui pourra être investi, à la fois autour de matériel portables et de matériels connectés aux « autoroutes de l’information ».

 
    La recherche française occupe une place privilégiée dans ce secteur. Le tissu industriel est tout à fait capable de développements d’envergure en liaison avec les laboratoires universitaires et le CNRS. Ainsi, me semble-t-il, le GdR-PRC CHM dont j’ai eu la charge pendant 5 ans, a contribué à construire une communauté autour de questions émergentes en communication homme-machine. Il a aussi posé des bases stables qui ont permis à des équipes de se construire.

 

 

2) Direction du laboratoire CLIPS-IMAG (2000-2006)

 

            Avant de prendre la succession d’Y. Chiaramella en 2000, j’ai assuré à ses côtés les fonctions de directeur adjoint depuis 1995. J’avais contribué notamment à la création de ce laboratoire, en partie grâce à la position que m’avait donnée la direction du GdR-PRC Communication Homme-Machine. J’ai l’intention de poursuivre le développement de ce laboratoire selon les directions scientifiques affichées à sa création, rappelées ci-après :

2.1. Une structure nouvelle

L'idée essentielle du projet de laboratoire a été de créer (et maintenant de développer) une structure nouvelle fondée sur deux composantes complémentaires : un laboratoire de recherche et un centre d'expérimentation (la plate-forme MultiCom) offrant des ressources au laboratoire et des services aux organismes ou entreprises extérieurs.

2.2. Des thèmes émergents

Le tissu de recherche Grenoblois a la richesse et la capacité de promouvoir et de mener à bien des recherches innovantes en informatique : la masse critique disponible dans le secteur public, la variété des PME-PMI dans la région Rhône-Alpes, alliée à leur dynamisme propre, créent à Grenoble des conditions très favorables pour l'émergence de thèmes concernant les interfaces homme-machine, les systèmes interactifs, les systèmes "multimédia", les "réalités virtuelles", etc.

Le CLIPS a choisi de travailler sur ces thèmes, classés en trois domaines :

(a)  la langue comme objet d'étude mais aussi comme mode de communication dans le dialogue homme-machine ou la traduction automatique,

(b)  les systèmes d'interaction (interfaces multimodales, réalités virtuelles, télé-présence, etc.) pour des usages finalisés (enseignement à distance, conception assistée, etc.) et,

(c)   la systèmes multimédias (systèmes à base de connaissance, systèmes d'information utilisant la langue naturelle, environnements hypermédia, etc.) fournissant les modèles et les outils de base.

2.3. Motivations scientifiques

Jusqu'ici, la recherche sur les systèmes de traitement de l'information a abordé deux grandes classes de problèmes :

·        les problèmes dont les questions de fond portent en priorité sur la structure et le fonctionnement internes de ces systèmes : circuits, architecture, stockage et accès aux informations, construction et vérification de logiciels, etc.

·        les problèmes nés des relations entre les trois entités, l'utilisateur (ou ensemble d'utilisateurs), le système et leur environnement commun et ce, dans le but de mener à bien une tâche donnée.

 

De ces deux catégories de problèmes, la première a été la plus étudiée. Il est nécessaire aujourd'hui de mettre en symbiose des approches et des compétences complémentaires, et pour apporter des solutions à la deuxième catégorie de problèmes, de concevoir la notion même de système sous le double aspect de l'Interactif et du Cognitif. Les systèmes dont il est question ici sont considérés du point de vue de l'utilisateur, au travers de propriétés qui mettent en jeu des notions comme connaissances, raisonnement, langue, parole, dialogue, apprentissage, geste, perception multi-sensorielle et interaction. Un système cognitif est, par essence, doté de capacités de communication et réciproquement, un système de communication ou d'interaction est doté de connaissances et de raisonnement. L'enjeu est clair dans cette problématique : il s'agit autant d'augmenter l'utilisabilité des systèmes et par la même leur impact socio-économique que de créer des conditions stimulant l'innovation technologique fondée sur des besoins réels et des usages observés.

2.4.  Motivations socio-économiques

Les progrès des technologies de l'information et de la communication ont en quelques années profondément modifié de nombreuses activités humaines. La puissance des ordinateurs, que ce soit en terme de calcul ou de stockage d'information, n'a pas cessé d'augmenter, leur prix et leur taille continuant de diminuer. Aujourd'hui, le problème n'est plus seulement d'accroître la puissance de la machine, dont une part assez importante est d'ailleurs en général sous-utilisée, mais de faciliter l'interaction avec les utilisateurs humains. Par une telle interaction adaptée, on vise bien sûr aussi à terme des systèmes plus attractifs pour le marché.

2.5. Axes thématiques

Les recherches grenobloises sur la communication homme-machine et domaines connexes couvrent une grande variété de spécialités : le traitement de la langue naturelle et de la parole, le dialogue homme-machine, la traduction multilingue, l'ingénierie des interfaces homme-machine, l'interaction instrumentale, la recherche d'informations dans les systèmes multimédia, les environnements logiciels pour application hypermédia, etc. On peut les regrouper sous trois axes :

• Langue, traduction et dialogue,

• Systèmes d'interaction,

• Systèmes multimédias.

 

Ces trois axes concernent la communication homme-machine, la communication homme-homme médiatisée et les systèmes interactifs dans leurs aspects théoriques (concepts, modèles), techniques (ingénierie, applications), ergonomiques (conception, validation).


 

Le rapport scientifique du laboratoire CLIPS, 2000 et Complément du rapport scientifique, 2001

Le rapport scientifique du laboratoire CLIPS, 2005 et Le rapport de l'équipe MultiCom 2005

 

   




[1] Animé par D. Boulier et B. Pavard

[2] Le site recense les communications, résumés, synthèses présentées par les participants lors des réunions de l’Action Spécifique. Il rend également compte de l’état d’avancement des réflexions de l’équipe projet sur les verrous scientifiques de la méthode de conception participative. Le site donne aussi accès aux coordonnées des participants et de leurs laboratoires.

[3] Réseau national de recherche en télécommunications