Text Box: Place licence statement here for the camera-ready version, see Section “Licence Statement” of the instructions for preparing a manuscript (coling2016.pdf).Une nouvelle architecture intégrant les données lexicales générales, terminologiques et "situées" : Pivax-3

 

 

 

 

 

 

 

 
Abstract

Le problème initial a été un besoin précis d'une société, à savoir la gestion d'un certain type d'abréviations, les acronymes, pour certains clients. Les acronymes en question sont des unités lexicales souvent terminologiques, mais pas toujours. Un même "prolexème" (collection d'unités lexicales synonymes dans une certaine situation, spatio-temporelle et/ou technique et/ou entrepreneuriale) n'a pas nécessairement de réalisation de type acronyme (ou abréviation, ou apocope, ou mot-valise) dans différentes langues. Du point de vue informatique, il faut pouvoir traiter ces unités dans la même base de données que les termes techniques et que les termes généraux. Nous avons proposé un modèle pour réaliser l'intégration de ces 3 types d'unités lexicales dans une même base de données lexicales.

1        Introduction

Notre recherche a été motivée par le problème de la gestion des acronymes dans notre partenaire industriel. En effet, il concerne non seulement les acronymes dans la gestion de terminologies multilingues, mais aussi l'association de plusieurs termes d'une même langue à un même référent : Jean-Paul II et Karol Jozef Wojtyla en français, ou en anglais John Paul II et Karol Jozef Wojtyla. De même, certains liens évoluent avec le temps : le pape désignait Jean-Paul II en 2004 et Benoît XVI en 2012. Des pays parlant la même langue (par exemple : France et Suisse romande) peuvent également utiliser des mots différents pour le même concept. Par exemple, chien renifleur et chien drogue. Inversement, le même terme peut désigner des concepts différents : dans la province de langue allemande de Bolzano en Italie, le Landeshauptmann est le président du conseil provincial, avec des compétences beaucoup plus limitées que le Landeshauptmann autrichien, qui est à la tête de l'un des États (Länder) de la fédération autrichienne. Pour la gestion des acronymes, un terme et son acronyme peuvent par exemple désigner le même référent.

C'est pourquoi on a besoin de lexies (une lexie est un sens de mot dans un dictionnaire) et d'axies (une axie est une classe d'équivalence de lexies synonymes).

Les notions d'axie et de lexie ne suffisent pas à représenter toutes les situations liées aux noms propres, parce qu'on a des dérivés, des alias, des types différents d'abréviation d'un même nom propre, etc. Par exemple, pour la ville de Saint-Martin-d'Hères, on peut trouver : Saint Martin d'Hères, St Martin d'Hères, Saint-Martin-d'Hères, SMDH, ou SMH.

L'association d'un prolexème (dans le modèle de Prolexbase [Tran, 2006], le prolexème correspond à une projection du nom propre conceptuel dans une langue donnée) aux noms propres de même référent a été proposée pour traiter ce type de problème. Un prolexème permet de relier les différentes formes d'un nom propre qui apparaissent dans les différents textes d'une langue donnée.

Il s'agit non seulement de noms propres, mais aussi d'expressions métaphoriques, ou de groupes nominaux, par exemple, Paris et ville lumière, Obama et président des USA.

Quelles solutions mettre en place de façon à choisir, pour un terme donné dans une langue donnée, le meilleur équivalent dans une langue cible ?

Pour trouver une solution générique, qui permette à une base lexicale "métier" de contenir tous les types d'unités lexicales, nous avons définit un cadre théorique composé d'une nouvelle macrostructure basée sur des concepts existants et sur la définition de nouveaux concepts. Nous avons pu installer le premier prototype à l'aide d'un outil générique de gestion de bases lexicales (Jibiki-2).

Cet article est organisé de la façon suivante. Dans la section 2, nous illustrons des idées pour concevoir une base lexicale "métier", et présentons la nouvelle notion de "situement". Dans la section 3, nous présentons les macrostructures existantes préconisées pour les données, et puis nous introduisons une nouvelle macrostructure qui permet de réaliser une base lexicale "métier". La section 4 présente les outils utilisés et l'implémentation de la macrostructure. La section 5 présente des démonstrations. Enfin, nous concluons et donnons quelques perspectives.

2        Concevoir des bases lexicales "métier", contenant des éléments plus ou moins "situés"

La difficulté de l'unification dans une même base lexicale de lexèmes (simples ou composés) généraux, de termes techniques, d'abréviations, de noms propres et d'entités nommées semble provenir du fait qu'ils sont plus ou moins "situés".

Un lexème général comme chemin, ou boire, ou vite a une acception (sens en usage) qui ne dépend pas d'un contexte d'interprétation particulier. Nous dirons qu'il est général, ou non situé.

Un terme technique comme ampoule a des sens dépendant de domaines particuliers (électricité, médecine, religion), mais pas du lieu ni du temps. Nous dirons qu'il est terminologique.

Une abréviation comme CNAM peut signifier Caisse Nationale d'Assurance Maladie ou Conservatoire National des Arts et Métiers. Un toponyme comme Rome renvoie à une ville, certes, mais s'agit-il de la capitale de l'Italie, de Rome (New-York), ou d'autres villes de ce nom aux USA ? Pour l'interpréter correctement, il faut disposer de la situation, ou au moins de paramètres pertinents de la situation. Nous dirons que CNAM et Rome sont situés.

Enfin, le sens des noms de sociétés, ou des noms de personnes, comme George W. Bush, dépend souvent d'une description encore plus précise du contexte. Même si on ajoute président des USA, il y en a eu deux de ce nom… et cette qualité leur reste attachée. En fait, le sens de beaucoup d'entités nommées dépend non seulement du domaine et du lieu, mais aussi du temps. On peut dire que les noms de personnes et ce qu'on appelle depuis quelques années les entités nommées sont très situés. Par exemple, la capitale de la RFA a été Bonn, puis Berlin à partir de 1991.

Un prolexème est par définition une classe d'équivalence d'expressions synonymes par rapport à une certaine situation. Ainsi, P1 = {président des USA, Georges W. Bush#2} est valide par rapport à 2005, et P2 = {président des USA, Barack Obama#1} est valide par rapport à 2015.

Nous appellerons "situement"[1] la qualité d'être situé, et parlerons du "degré de situement" d'un lexème.

Chaque type de vocable (entrée d'un dictionnaire usuel [Polguère, 2002]) correspond à un degré de situement : général, terminologique, situé, ou très situé.

Pour bien expliquer les degrés de situement, nous donnons ici quelques exemples.

Mot-vedette

Degré de situement

Descripteur de situement

Signification

sémaphore

général 

sémaphore#général 

signalisation maritime

 

situé

sémaphore#situé?lieu=Bé-

ar 

sémaphore du cap Béar (Chemin du Cap Béar, 66660 Port-Vendres)

 

termino­logique

sémaphore#terminologique

?domaine=informatique 

en informatique, dispositif de verrouillage de ressources

diabolo 

général 

diabolo#général 

instrument de jonglage

 

termino­logique

diabolo#terminologique?d-

omaine=médecine 

aérateur en ORL

président

général

président#général 

chef d'État, président d'une compagnie, chef  d'un tribunal, président d'un colloque etc.

 

très situé

président#situé?lieu=Etats-Unis&année=2015

Barack Obama

 

très situé

président#situé?lieu=Etats-Unis&année=2005

George W. Bush

Table 1: Exemples pour les différents degrés de situement

Une base lexicale "métier" est une base lexicale adaptée à différents métiers (traducteur, lexicographe, terminologue, enseignant…, et logiciels) pour certains domaines et certaines tâches. Une base lexicale "métier" unifie tous les types d'unités lexicales, et en particulier tous les degrés de "situement".

3        Choix de la macrostructure

3.1       Macrostructures les plus simples

La macrostructure d'une base lexicale est la description de son architecture générale, c'est à dire des types de ses volumes et de leurs relations. La macrostructure la plus simple est celle d'un dictionnaire monolingue ne comportant qu'un seul volume.

Pour les dictionnaires bilingues langue A (LgA) langue B (LgB), on trouve souvent des macrostructures avec deux volumes : un volume LgA LgB et un volume miroir LgB LgA. Ces macrostructures constituent l'essentiel des dictionnaires imprimés.

3.2       Macrostructure de Pivot

Le projet Papillon [Tomokiyo et al., 2000] lancé en 2000, a pour but de construire une ressource lexicale pour plusieurs langues dont au moins l'anglais, le français et le japonais. Les macrostructures bilingues traditionnelles obligeant à construire un dictionnaire par couple de langues, le nombre de dictionnaires croît très rapidement par rapport au nombre de langues en présence. Cette solution devient rapidement ingérable. Il fallait donc en trouver une nouvelle, un dictionnaire multilingue à structure pivot : un volume monolingue pour chaque langue et un volume pivot (ou volume interlingue) au centre regroupant les liens entre les articles. La microstructure des article monolingues reprend le concept de lexie défini dans la lexicographie explicative et combinatoire [Mel'čuk et al., 1995] issue de la théorie sens-texte. Chaque article décrit une lexie.

Chaque lexie est reliée par un lien interlingue à une axie (ou acception interlingue). Les axies sont contenues dans le volume pivot. Chaque axie regroupe les équivalents dans plusieurs langues d'une même lexie (ou sens de mot). Les concepts d'axie et de structure pivot ont été définis pour le projet Papillon et ensuite repris dans la norme Lexical Markup Framework [Francopoulo et al., 2009].

3.3       Macrostructure de Pivax

La macrostructure Pivot vue précédemment permet de résoudre le problème posé par une situation multilingue. Au niveau monolingue, par contre, on doit se contenter d'un seul volume pour chaque langue, ce qui constitue une limitation importante.

Dans sa thèse, Hong-Thai Nguyen avait le projet de construire une base lexicale avec des ressources issues de systèmes de traduction. Nous citions ici [Nguyen, 2009]

« Ce projet a été motivé par les besoins de partage de données lexicales de systèmes de TA. Ce besoin vient du désir d'utilisateurs de systèmes commerciaux comme Systran, Reverso, METAL, etc. de partager leurs dictionnaires entre eux et entre systèmes. »

Chaque système de traduction utilise un format qui lui est propre pour ses dictionnaires lui permettant de stocker des variables spécifiques. Si l'on veut regrouper ces dictionnaires, il n'est pas souhaitable de fusionner tous les dictionnaires de chaque langue. On peut par contre regrouper les lexies identiques d'une même langue dans un même objet. C'est le rôle des axèmes, ou acceptions monolingues.

Pour chaque langue ou espace lexical, ou aura alors un volume pour chaque système de traduction présent (Systran, Reverso, etc.) et un seul volume d'axèmes. Chaque lexie de chaque volume est reliée à un axème. Chaque axème est à son tour relié à une axie dans le volume pivot central.

Cette structure ainsi constituée est une structure Pivax ou structure Pivot à étages. Elle peut être utilisée également pour gérer différentes versions d'un même volume dans un espace lexical.

3.4       Macrostructure de Pivax-3[2]

Pour une base lexicale "métier", nous avons conçu une nouvelle macrostructure, Pivax-3. On a repris les trois types de volumes de Pivax : lexie, axème et axie. On a enrichi la notion de prolexème et on a introduit une nouvelle notion, celle de proaxie.

Prolexème. Dans une base lexicale Pivax-3, il y a un seul volume de prolexèmes pour chaque langue. Dans ce volume, les prolexèmes regroupent les lexies qui représentent le même sens mais dont la réalisation syntaxique est différente (forme de surface, classe grammaticale, etc.).

 Au contraire de M. Tran, notre notion de prolexème n'est pas limitée aux noms propres. Les liens bidirectionnels entre les lexies et leurs prolexèmes sont marqués avec une étiquette libre (par exemple, alias, acronyme, dérivation, définition, etc.).

Par exemple, l'entrée de type prolexème fra.organisation_des_nations_unies.1 est reliée aux entrées de type lexie :

       ONU, par un lien étiqueté acronyme.

       nations unies, par un lien étiqueté alias. 

       onusien, par un lien étiqueté dérivation.

       organisation des nations unies, par un lien étiqueté définition. Ce lien n'est pas la définition lexicographique du prolexème, mais caractérise seulement le terme préféré pour le décrire.

Proaxie. Il y a un seul volume de proaxies dans une instance de Pivax-3. Les proaxies regroupent les prolexèmes de langues différentes partageant un même sens.

 Les liens entre une entrée de proaxie et les entrées de prolexèmes sont bidirectionnels. Par exemple, dans un dictionnaire trilingue français-anglais-chinois, l'entrée de proaxie proaxie.united_nations.1 relie les entrées :

       fra.organisation_des_nations_unies.1 du volume des prolexèmes français,

       eng.united_nations.1 du volume des prolexèmes anglais,

       zho.联合国.1 du volume des prolexèmes chinois.

Figure 1 : Macrostructure de Pivax-3

 Macrostructure complète. Dans cette macrostructure, nous avons deux couches : une couche basique et une couche "Pro". Dans la couche basique, nous gérons trois types de volume : les volumes de lexies, les volumes d'axèmes et le volume d'axies. Dans la couche "Pro", nous gérons deux types de volume : les volumes de prolexèmes et le volume des proaxies.

Grâce à la couche basique, nous pouvons relier les lexies qui se correspondent exactement, comme l'acronyme français ONU, relié à l'acronyme anglais UN.

Grâce à la couche "Pro", nous pouvons proposer en traduction des lexies des langues cible de même sens. Par exemple, en chinois, il y a un seul mot联合国 (lián hé guó) pour ce sens, et il n'existe pas d'acronyme. Donc on peut toujours proposer le même terme 联合国 pour la traduction de UN et la traduction de United Nations. Voir la Figure 2.

La notion d'étiquette a pour but de proposer les meilleures traductions. Par exemple, en japonais, 際連合 (kokusai-rengō) est la lexie de même sens que United Nations, et son acronyme est 国連 (kokuren). Cet acronyme utilise le premier et le troisième kanji de ce mot (composé), ce qui est différent des initiales de la lexie de définition (le cas de ONU et de UN). Il existe peut-être une langue qui a deux acronymes, l'un correspondant à l'acronyme des initiales, l'autre correspondant à une sélection de caractères ou de mots. Donc, nous avons décidé de ne pas relier ces deux acronymes de types différents à une même axie. Par contre, comme ce sont des acronymes, pour la traduction de ONU, 国連 est meilleur que 国際連合.

Trois niveaux de traduction. Nous proposons trois niveaux de traduction classés selon la précision obtenue.

(1)    Le système trouve une lexie directement, en passant par le volume des axèmes et par le volume des axies. C'est le premier niveau de traduction, et le plus précis.

Par exemple, la traduction de UN en français est ONU.

(2)    Le système cherche le lien dans le volume des prolexèmes de la langue source avec une étiquette. Puis il parcourt le volume des proaxies, et ensuite le volume des prolexèmes et les volumes des lexies des langues cible. Il trouve une lexie avec la même étiquette. C'est le deuxième niveau, dit niveau intermédiaire.

Par exemple, en japonais, 国連 est meilleur que 国際連合 pour la traduction de UN, parce que ces mots portent l'étiquette acronyme.

(3)    Le système trouve les lexies par prolexème et proaxie sans prendre en compte l'étiquette. Ces lexies proposées constituent le troisième niveau, le moins précis.

Par exemple, on trouve la traduction en chinois 联合国 pour UN.

La quantité de lexies contenues dans le résultat augmente suivant les niveaux de traduction, du premier vers le troisième. C'est-à-dire qu'on a :

{traductions_1er_niveau}{traductions_2e_niveau}{traductions_3e_niveau}

Pour faciliter la lecture, nous avons décidé : (1) d'afficher l'étiquette, la langue et le mot-vedette dans le 1er et le 2ème niveau sur l'interface Web. (2) d'afficher tous les détails (phrases exemples, définitions, POS, etc.) dans le 3ème niveau, y compris les lexies du même prolexème de la langue source. (3) de ne pas afficher la traduction dans le 2ème niveau si elle a déjà été trouvée et est déjà affichée dans le 1er niveau.

Figure 2 : Exemple des liens dans Pivax-3

4        Outils nécessaires : plates-formes de manipulation

4.1       Plate-forme Jibiki version 1

Pour implémenter la macrostructure de Pivax-3, nous avons utilisé la plate-forme Jibiki. Elle permet la construction de sites Web contributifs dédiés à la construction et la gestion de bases lexicales multilingues. Cette plate-forme a été développée principalement par Author3 [Auth3, 2006] et Gilles Sérasset [Sérasset, 2004]. Elle a été utilisée dans divers projets (projet LexALP [Sérasset et al., 2006], projet Papillon [Auth3 & Thevenin, 2004], projet GDEF [Auth3 & Chalvin, 2006], etc.). Le code est disponible en source ouvert et téléchargeable gratuitement par SVN sur ligforge.imag.fr. Avec cette plate-forme, on peut faire les manipulations d'import, export, édition, modification et recherche dans des bases lexicales. On peut aussi gérer les contributions.

Jibiki est une plate-forme générique, elle permet de traiter presque toutes les ressources lexicales de type Xml en utilisant différentes microstructures et macrostructures. La microstructure d'un dictionnaire est la structure de ses articles, c'est à dire l'organisation de ses entrées.

Pour gérer les différentes microstructures, Author3 a créé une microstructure virtuelle en CDM (Common Dictionary Markup) [Auth3, 2002]. Cette structure est stockée dans un fichier de métadonnées sous forme Xml. Pour chaque pointeur CDM, on indique le chemin XPath vers l'élément correspondant dans la microstructure Xml. Les liens de traduction sont à ce stade traités comme des pointeurs CDM classiques[3].

La version 1 de Jibiki présentait plusieurs limitations. Les liens de traduction étaient traités avec des pointeurs CDM, comme des éléments d'information classiques. Ces liens étaient simples. Il n'y avait pas de possibilité de décrire des liens entre plusieurs volumes différents. Il n'était pas non plus possible d'ajouter des attributs (poids, étiquette, volume cible, etc.) sur les liens. 

4.2       Gestion des liens riches : Jibiki-2

Pour traiter des liens plus compliqués, nous avons enrichi l'ensemble des balises CDM par une description plus riche des liens. Cet ensemble enrichi est nommé CDM-links [Auth1 et al., 2014]. Pour chaque lien, plusieurs informations peuvent être indexées : (1) l'identifiant de l'entrée source, (2) l'identifiant de l'entrée cible, (3) l'identifiant de l'élément Xml de l'entrée source contenant le lien[4], (4) le nom du lien[5], (5) la langue cible (code à trois lettres ISO-639-2/T),  (6) le volume cible, (7) le type de lien[6], (8) une étiquette dont le texte est libre, (9) un poids dont la valeur doit être un réel dans ]-10,+10[.

Ces liens peuvent être établis entre deux entrées d'un même volume ou entre deux volumes différents. Un même volume peut regrouper des entrées reliées à plusieurs volumes. Pour réaliser l'implémentation des liens riches, nous avons séparé la table des liens de la table de CDM-classique.

5        Démonstrations

5.1       Choix de l'exemple

Cette section présente notre méthode avec un exemple en quatre langues, pour le sens United Nations.

(1)    En français, il y a Organisation des Nations Unies, et on peut aussi dire Nations unies, ONU ou onusien.

(2)    En anglais, on a United Nations et son acronyme UN.

(3)    En chinois, on a联合国 qui est la seule lexie pour ce sens, et il n'y a pas d'acronyme.

(4)    En japonais, on a国際連合 et son acronyme国連.

On choisit cet exemple pour les raisons suivantes :

(1)   C'est un cas compliqué.

(2)    On a déjà utilisé cet exemple ci-dessus, mais pas complètement.

(3)    Cet exemple (parties en anglais et en français) a été utilisé par M. Tran pour présenter Prolexbase.

(4)    C'est un besoin initial de notre partenaire industriel.

Dans cet exemple, il n'y a pas que des acronymes, mais aussi d'autres types de noms propres, par exemple, alias et dérivés. Voir la Table 2.

Étiquette

Anglais

Français

Chinois

Japonais

Définition (DEF)

United Nations

Organisation des Nations Unies

合国

国際連合

Acronyme (ACRO)

UN

ONU

 

国連

Alias (ALIAS)

 

Nations Unies

 

 

Dérivé (DERIV)

 

onusien

 

 

Table 2 : Étiquettes utilisées pour l'exemple United Nations

5.2       Démo 1 : consultation du terme 国連 du japonais vers les autres langues

Il s'agit d'une consultation aux 2ème et 3ème niveaux de traduction.

Niveau

Lexies trouvables en théorie

Lexies trouvées et affichées par l'interface

 

Français

Anglais

Chinois

Japonais

Français

Anglais

Chinois

Japonais

1

 

 

 

 

 

 

 

 

2

ONU

UN

 

 

ONU

UN

 

 

3

ONU, Nations unies, onusien, Organisation des nations unies

UN, United Nations

合国

Q=’ 国連

ONU, Nations unies, onusien, Organisation des nations unies

UN, United Nations

 

合国

国際連合,

国連

Table 3 : Trois niveaux de traduction : terme国連 du japonais vers toutes les langues

Figure 3 : Terme 国連 du japonais vers toutes les langues

5.3       Démo 2 : consultation du terme UN de l'anglais vers les autres langues

Il s'agit d'une consultation pour les trois niveaux de traduction.

Niveau

Lexies trouvables en théorie

Lexies trouvées et affichées par l'interface

 

Français

Anglais

Chinois

Japonais

Français

Anglais

Chinois

Japonais

1

ONU

 

 

 

ONU

 

 

 

2

ONU

 

 

国連

 

 

 

国連

3

ONU, Nations unies, onusien, Organisation des nations unies

Q=’UN’

联合国

 

国際連合, 国連

 

ONU, Nations unies, onusien, Organisation des nations unies

UN, United Nations

 

联合国

 

国際連合, 国連

 

Table 4 : Trois niveaux de traduction : terme UN de l'anglais vers toutes les langues

Figure 4 : Terme UN de l'anglais vers toutes les langues

6        Conclusion

Pivax-3 est le premier prototype, la base actuelle est une preuve de concept qui comporte quelques exemples issus de Prolexbase et une toute petite partie des données protégées de notre partenaire industriel. Nous souhaitons tester cette solution en passant à l'échelle sur de grosses bases telles que Cjk (chinois, japonais, coréen, arabe, anglais) avec 24 millions d'entrées ou l'Unifed Medical Language System avec 5 millions de termes.

Pour le futur, nous souhaitons faire évoluer cette macrostructure pour prendre en compte les différents sous-types de synonymie, et transposer le concept de prolexème pour que cette solution puisse être utilisée dans un autre domaine linguistique.

Par exemple, pour une ressource lexicale comprenant des textos, en français A+ correspondrait à À plus ou À plus tard avec une étiquette texto, et en anglais L8R correspondrait à later avec l'étiquette texto.

Nous prévoyons de prendre en compte également les quatre dimensions du diasystème [Coseriu, 1992 ; Coseriu, 1998] basé essentiellement sur ce qu'Eugenio Coseriu a proposé : diachronique (variété dans le temps), diaphasique (variété concernant les finalités de l'emploi), diatopique (variété dans l'espace), et diastratique (variété relative à la stratification socio-culturelle).

Pour les cas complexes, on a proposé d'utiliser le descripteur de situement comme étiquette. Par exemple, on relie les lexies suivantes par un prolexème : (1) le pape avec l'étiquette le_pape#général, (2) Jean_Paul II avec l'étiquette le_pape#situé?date=16101978-02042005, et (3) Benoît XVI avec l'étiquette le_pape#situé?date=19042005-28022013.

 

 

 

Reference

[Ball, 2003] Ball, S. (2003). Joined-up Terminology - The IATE system enters production. Proc. the 25th International Conference on Translating and the Computer, London, UK, 5 p.

[Auth4 et al., 2005] Auth4, Auth2 and Kenwright, J. (2005). ITOLDU, a Web Service to Pool Technical Lexical Terms in a Learning Environment and Contribute to Multilingual Lexical Databases. Proc. CICLing 2005, Mexico City, pp. 324-332.

[Blanc, 1999] Blanc, E. (1999). PARAX-UNL : A large scale hypertextual multilingual lexical database. Proc. 5th Natural Language Processing Pacific Rim Symposium 1999, Beijing, pp. 507-510.

[Auth2 et al., 2007] Auth2, Boguslavskij, I. and Cardeñosa, I. (2007). An Evaluation of UNL Usability for High Quality Multilingualization and Projections for a Future UNL++ Language. Proc. CICLING-2007, Mexico City, pp. 361-373.

[Brown de Colstoun et al., 2011] Brown de Colstoun, F., Delpech, E. and Monneret, E. (2011). Libellex : une plateforme multiservices pour la gestion des contenus multilingues. Proc. TALN 2011, Démonstrations, Montpellier, 1 p.

[Brown et al., 1989] Brown, J. S., Collins, A. and Duguid, P. (1989). Situated Cognition and the Culture of Learning. Educational Researcher, Vol. 18, pp. 32-42.

[Cimiano et al., 2015] Cimiano, P., McCrae, J. P., Rodríguez-Doncel, V., Gornostay, T., Gómez-Pérez, A., Siemoneit, B. and Lagzdins, A. (2015). Linked Terminology : Applying Linked Data Principles to Terminological Resources. Proc. eLex 2015, Sussex, 11 p.

[Coseriu, 1992] Coseriu, E. (1992). Einführung in die allgemeine Sprachwissenschaft. Tübingen : Francke, pp. 262-264.

[Coseriu, 1998] Coseriu, E. (1998). Le double problème des unités dia-s. Les Cahiers dia. Etudes sur la diachronie et la variation linguistique, Vol. 1, pp. 9-16.

[Dikonov & Boguslavsky, 2009] Dikonov, V. and Boguslavsky, I. (2009). Semantic Network of the UNL Dictionary of Concepts. Proc. the SENSE Workshop on conceptual Structures for Extracting Natural language SEmantics, Moscow, 7 p.

[Francopoulo et al., 2009] Francopoulo, G., Bel, N., George, M., Calzolari, N., Monachini, M., Pet, M. and Soria, C. (2009). Multilingual resources for NLP in the lexical markup framework (LMF). Language Resources and Evaluation, 43(1), pp. 57-70.

[Halpern, 2006] Halpern, J. (2006). The Role of Lexical Resources in CJK Natural Language Processing. Proc. the Workshop on Multilingual Language Resources and Interoperability, Sydney, pp. 9-16.

[Lafourcade, 1997] Lafourcade, M. (1997). Multilingual dictionary construction and services : case study with the Fe* projects. Proc. PACLING 1997, Tokyo, pp. 171-181.

[Lafourcade & Joubert, 2010] Lafourcade, M. and Joubert, A. (2010). Computing trees of named word usages from a crowdsourced lexical network. Investigationes Linguisticae, vol. XXI, pp. 39-56.

[Lepage, 2000] Lepage, Y. (2000). Languages of analogical strings. Proc. COLING-2000, Saarbrücken, pp. 488–494.

[Auth3, 2002] Auth3 (2002). How to import an existing XML dictionary into the Papillon platform. Proc. Papillon 2002 Workshop (CDROM), NII, Tokyo, 10 p.

[Auth3, 2006] Auth3 (2006). Dictionary building with the Jibiki platform : software demonstration. Proc. EURALEX 2006, Torino, pp. 121-126.

[Auth3 & Chalvin, 2006] Auth3 and Chalvin, A. (2006). Dictionary building with the Jibiki platform : the GDEF case. Proc. LREC 2006, Genoa (Gênes), pp. 1666-1669.

[Auth3 & Thevenin, 2004] Auth3 and Thevenin, D. (2004). Online generic editing of heterogeneous dictionary entries in the Papillon project. Proc. COLING 2004, Geneva, 7 p.

[Maurel & Tran, 2005] Maurel, D. and Tran, M. (2005). Une ontologie multilingue des noms propres. Corela, HS-2, 2005, 9 p.

[Mel'čuk et al., 1995] Mel'čuk, I. A., Clas, A. and Polguère, A. (1995). Introduction à la lexicologie explicative et combinatoire. Louvain-la-Neuve, Duculot, 256 p.

[Miller et al., 1990] Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D. and Miller, K. J. (1990). Introduction to WordNet : An on-line lexical database. International journal of lexicography, 3(4), pp. 235-244.

[Nguyen, 2009] Nguyen, H.-T. (2009). Des systèmes de TA homogènes aux systèmes de TAO hétérogènes. Thèse de doctorat en informatique, Université Joseph-Fourier - Grenoble I, 236 p.

[Polguère, 2002] Polguère, A. (2002). Notions de base en lexicologie, OLST-Département de linguistique et de traduction, Université de Montréal, 140 p.

[Ramisch, 2012] Ramisch, C. (2012). A generic and open framework for multiword expressions treatment : from acquisition to applications. Proc. ACL 2012 Student Research Workshop, Jeju, pp. 61-66.

[Sérasset, 2004] Sérasset, G. (2004). A generic collaborative platform for multilingual lexical database development. Proc. the Workshop on Multilingual Linguistic Resources, COLING 2004, Geneva, pp. 79-86.

[Sérasset et al., 2006] Sérasset, G., Brunet-Manquat, F. and Chiocchetti, E. (2006). Multilingual legal terminology on the Jibiki platform : the Lexalp project. Proc. COLING/ACL 2006, pp. 937-944.

[Tomokiyo et al., 2000] Tomokiyo, M., Auth3 and Planas, E. (2000). Papillon : a Project of Lexical Database for English, French and Japanese, using Interlingual Links. Proc. Journées Science et Technologie (JST-2000), Tokyo, 3 p.

[Tran, 2006] Tran, M. (2006). Prolexbase : un dictionnaire relationnel multilingue de noms propres : conception, implémentation et gestion en ligne. Thèse de doctorat en informatique, Université de Tours, 171 p.

[Tran & Maurel, 2006] Tran, M. and Maurel, D. (2006). Prolexbase : un dictionnaire relationnel multilingue de noms propres. Traitement automatique des langues, 47(3), pp. 115-139.

[Auth1 et al., 2014] Auth1, Auth3, Auth4 and Auth2 (2014). Jibiki-LINKS : a Tool between Traditional Dictionaries and Lexical Networks for Modelling Lexical Resources. Proc. Workshop on Cognitive Aspects of the Lexicon (CogALex), COLING 2014, Dublin, pp. 87-98.

 



[1] Ce terme "situement" semble naturel, car il est solution de plusieurs équations analogiques [Lepage, 2000] comme : situer:situement::figer:figement::dénué:dénuement. On parle de même du "degré de figement" d'une collocation.

 

[2] Le nom Pivax-2 a été utilisé par une autre version de Pivax. C'est une version plus stable et plus rapide que Pivax-1, mais toujours avec la même macrostructure de trois niveaux (lexie, axème et axie).

[3] Par exemple, cdm-headword est le pointeur pour le mot-vedette, cdm-entry-id est le pointeur pour l'identifiant de l'entrée. cdm-translation est le pointeur pour le lien de la traduction.

[4] Par exemple, le numéro de sens dans le cas d'une entrée polysémique avec un lien de traduction pour chaque sens. Cela permet de retrouver précisément l'origine du lien.

[5] Celui-ci est utilisé pour distinguer des liens de types différents dans une même entrée, par exemple un lien de traduction et un lien de synonymie.

[6] Certains sont prédéfinis car ils sont utilisés par les algorithmes de calcul des liens riches (traduction, axème, axie), mais il est possible d'en utiliser d'autres.