TP6bis : “Introduction à la traduction automatique
Aspects théoriques : voir cours en ligne http://www-clips.imag.fr/geod/User/laurent.besacier/traduction.pdf
Materiel nécessaire :
-l'outil d'alignement GIZA++ qui implémente les
modèles IBM
http://www.fjoch.com/GIZA++.html
version pour gcc4 : http://code.google.com/p/giza-pp/
-un corpus parallèle : le récupérer par exemple sur http://www.statmt.org/europarl/ (français/anglais)
+ les outils de pre-traitement de données sur http://www.statmt.org/europarl/v3/tools.tgz
Partie 1 : observation
1.1 Observez le fichier disponible dans tools_tp6bis
exemplesFR-EN.align . Choisissez une ou deux phrases courtes et dessinez l’alignement
correspondant. Identifiez des phrases contenant des erreurs d’alignement.
1.2 Observez le
fichier morceau-tableFR-EN.txt. Notez
quelques exemples de segments bilingues contenus dans le modèle de traduction.
Partie 2 : utilisation d’outils de traduction en
ligne
2.1 Selectionnez
une page web en anglais (pas trop longue) et traduisez la en français avec google translate (http://translate.google.fr/
). Traduire la même page avec le système systran (http://www.systranet.fr/web ). Comparez
les deux traductions obtenues.
2.2
Ajoutez une service de traduction de votre page web personnelle selon les
instructions données dans : http://translate.google.fr/translate_tools?hl=fr&layout=1&eotf=1&sl=es&tl=en
http://translate.google.fr/translate_tools?hl=fr&layout=1&eotf=1&sl=es&tl=en