|
Le
projet UNL
Fondé à
l'IAS (Institute of Advanced Studies)
de l'UNU (Université des
Nations Unies) à Tokyo en avril 1996, le projet UNL
rassemble maintenant des partenaires du monde entier, avec plus
de 14 langues couvertes. Depuis le 1er janvier 2000, les spécifications du "langage
UNL" sont ouvertes à tous sur le serveur de l'IAS.
Le but du projet UNL
est de favoriser l'éclosion d'un véritable multilinguisme
dans une société de l'information en pleine expansion.
Nous souhaitons que cela permettra à toutes personnes
de communiquer et d'accéder à l'ensemble des informations
sur internet dans sa langue maternelle.
Un
scénario
Une personne, de langue maternelle
française, fait une étude sur internet concernant
"l'éducation par la recherche". À l'heure
actuelle, elle tape "éducation par la recherche"
sur un moteur de recherche quelconque. Elle va obtenir en résultat
de très nombreux documents, rédigés en français, concernant l'éducation
par la recherche, l'éducation à la recherche, la
recherche au ministère de l'éducation, la recherche
en éducation, le moteur de recherche de l'institut d'éducation
à la santé, etc.
Avec UNL, le même scénario
change. La personne formule sa recherche de la même manière.
Par contre, les résultats sont différents :
- Les documents trouvés
ont été rédigés dans n'importe quelle langue sur internet,
mais seront lus par notre utilisateur, en français,
sa langue maternelle.
- Les documents trouvés
ne concerneront que l'éducation par
la recherche et notre utilisateur pourra se concentrer sur les
informations qui l'intéressent vraiment.
- S'il ne souhaite pas consulter
un document dans son intégralité, il pourra consulter
un résumé en français, qui sera plus
représentatif qu'un simple extrait.
- Il pourra envoyer un document
trouvé à son collègue japonais, qui pourra
lui aussi le lire dans sa langue.
- Il pourra en discuter avec
son collègue japonais, tous deux s'exprimant dans leur
langue respective.
- ...
Bien entendu, ce scénario
pourra être augmenté à loisir au fur et à
mesure que les internautes s'approprieront le système
UNL.
Multilinguisme
ou Multi-bilinguisme
Le point fort du projet UNL
est la promotion du multilinguisme. Une grande confusion règne
actuellement sur internet, concernant cet aspect. On entend ainsi
dire qu'avec les moteurs de traduction automatique de première
ou de seconde génération, internet deviendra multilingue.
Cette croyance est fondamentalement fausse !
La première raison
provient de la dominance économique de l'anglais. Ainsi,
par exemple, au moment ou nous rédigeons cette page, la
société SYSTRAN propose 12 traducteurs dont 2 seulement
où ne figure pas l'anglais (français -> allemand
et allemand -> français). Pour qu'un portugais accède
à un document français, il lui faut demander une
traduction français -> anglais, puis une traduction
anglais -> portuguais. Les erreurs de la seconde traduction
se combinant avec celles de la première, le résultat
n'a plus grand chose à voir avec le document demandé.
La seconde raison est purement
économique. Si l'on souhaite fournir des outils de communication
permettant à une communauté de 6 langues de travailler
en commun, il faut développer 15 paires de langues (soit
30 traducteurs), 21 pour 7 langues, 28 pour 8 langues, ...
Ainsi, puisqu'il est difficile
de développer de nombreuses paires de langues, on développe
en priorité des traducteurs de et vers l'anglais.
Aussi, investir dans des
techniques se basant sur des outils bilingues a pour effet de
renforcer encore la position dominante de l'anglais sur internet.
Notre utilisateur portugais, qui souhaitait lire un texte rédigé
par un français, va donc demander la traduction français->anglais
dudit texte et il tentera de décoder le résultat
anglais.
Une telle politique ne peut
donc que creuser le fossé entre les internautes qui comprennent
l'anglais et ceux qui ne parlent que leurs langues maternelles.
Ainsi, pour beaucoup, le "portail sur le monde" est
et restera fermé à clé.
La démarche d'UNL
est parfaitement multilingue. En se basant sur une représentation
abstraite dont on se sert comme d'un pivot interlingue, toutes
les langues sont considérées sur un même
pied d'égalité. Ainsi, il suffit de développer
un outil qui fait le lien (dans les deux sens) entre une langue
et cette représentation pivot adoptée par l'ensemble
des partenaires.
Certe, le développement
de ces outils est plus complexe que le développement d'une
paire de langue pour un traducteur de deuxième génération,
mais le bénéfice est évident : pour
satisfaire une communauté de 6 langues, il faut développer
6 outils, 7 pour 7 langues, 8 pour 8 langues...
Le
"Langage UNL"
Le "langage UNL"
est un langage informatique permettant de coder une représentation
du sens d'un énoncé. On se sert de cette représentation
comme d'un pivot interlingue. Mais attention, le langage UNL n'est
pas une langue. Il
ne peut être utilisé directement par un non spécialiste.
La spécification de
ce langage est maintenant ouverte au public et peut être
consultée sur le site le l'IAS/UNU.
Développements
actuels
Bien évidemment, il
nous reste un long chemin à parcourir avant de voir le
projet UNL utilisé par l'ensemble des internautes. Néanmoins,
le projet UNL regroupe actuellement 15 langues, développées
par des laboratoires universitaires et des entreprises de par
le monde. De nombreuses entreprises se sont de plus jointes à
l'UNL society.
La stratégie de développement
actuelle porte principalement sur la génération
d'un énoncé du langage UNL vers une langue naturelle
(ce que nous appelons la déconversion).
Des expériences plus ponctuelles sont faites chez certains
partenaires pour ce qui concerne le chemin inverse (d'un énoncé
en langue naturelle vers le langage UNL), que nous appelons enconversion.
La raison de cette stratégie
tient dans le fait que la déconversion est plus simple
que l'enconversion. De plus, cela nous permet de prouver la validité
de notre approche sur un grand nombre de langues (15 actuellement),
de familles très différentes.
Objectifs
L'objectif actuel du projet
UNL est de monter un ensemble de centres dispersés dans
le monde. Chaque centre sera en charge du développement
et de la maintenance des outils permettant le traitement d'une
langue au sein du système UNL. Chaque centre fournira
un service de déconversion et d'enconversion gratuit à l'ensemble des internautes.
D'autres outils pourront être développés
par d'autres personnes ou entreprises en utilisant le langage
UNL, selon les conditions définies par les partenaires
et disponibles sur le site de l'IAS/UNU.
Le projet UNL en France
L'équipe GETA du laboratoire CLIPS est en charge du
Français dans le projet UNL.
Nous sommes donc en train de développer un "déconvertisseur" du Français.
Parallèlement, nous avons présenté nos travaux dans certains congrès
scientifiques :
|