Paramètres des modèles IBM de traduction probabiliste: EGYPT

Chapitre 3 :

Table des matières

L’estimation des paramètres

Nous avons abordé dans le chapitre précédent les modèles IBM d’un point de vue formel. Nous décrivons ici l’outil EGYPT qui permet d’entraîner les modèles IBM.

Ce package mis au point par un groupe de travail de l’université Johns Hopkins [Al-Onaizan et al., 1999] est disponible aux chercheurs de tout organisme universitaire.

Nous expliquons les différents outils du package EGYPT utilisés pour estimer les paramètres des modèles IBM. Nous présentons les types de données (entrées et sorties) de chaque outil ainsi qu’une brève explication sur les techniques suivies pour la préparation des corpus bilingues nécessaires à l’entraînement.

3.1 Le projet EGYPT

Le package de traduction probabiliste « EGYPT », a été construit lors d’un « MT workshop » de l’université Johns Hopkins [Al-Onaizan et al., 1999]. L’équipe « EGYPT » avait les objectifs suivants à réaliser:

Construire un toolkit de traduction automatique statistique et le rendre disponible aux chercheurs de la communauté langagière.
Construire à l’aide de ce toolkit un système de traduction automatique tchèque-anglais.

EGYPT est conçu de plusieurs modules, nous en décrivons les principaux:

Whittle qui permet de préparer les données d’entraînement et de test.
GIZA qui réalise l’entraînement des modèles IBM 1, 2 et 3.
CAIRO qui permet de visualiser des alignements de mots.

3.1.1 Bitexte

Le point de départ de l’entraînement est ce que l’on désigne par bitexte. Un bitexte est un corpus bilingue parallèle (un texte dans une langue de départ et sa traduction) où les liens de traduction entre les phrases ou groupes de phrases sont explicites.

On peut obtenir un bitexte à partir d’un corpus bilingue en alignant le corpus au niveau des phrases. Pour y arriver, deux types d’information sont exploités dans les algorithmes d’alignement :

Les informations métriques : [Church et William Gale 1991a] utilisent la longueur des phrases (comptée en nombre de caractères ou mots) comme critère de mise en correspondance. Les auteurs ont en effet montré qu’il existe un rapport de proportionnalité entre la longueur d’une phrase en langue de départ et la longueur de sa traduction.
Les informations à caractère linguistique : [Simard et al., 1992] proposent d’aligner des corpus bilingues en exploitant le fait que deux phrases en relation de traduction partagent souvent des mots communs ou proches « les cognates » : comme des données chiffrées, des noms propres, ou encore des mots partageant la même racine. (Exemple : accès/access, activité/activity, parlement/parliament…)

Nous avons utilisé dans notre mémoire un aligneur développé au RALI [Simard et al., 1992].

3.1.2 Whittle

Whittle permet la préparation d’un corpus bilingue au format requis par GIZA à partir du bitexte, Whittle calcule les fréquences de chaque mot puis associe un indice à chacun. Whittle produit alors un texte formé d’une suite d’indexes.

Cet outil permet entre autre de spécifier laquelle des deux langues sera la langue source (ici anglais), et gère également des options qui peuvent influer sur la qualité des modèles produits, comme la longueur maximale des phrases que l’on veut conserver à l’entraînement, ou encore la fréquence minimale d’un mot en dessous de laquelle un mot sera associé à une forme inconnue (UNK). Whittle permet enfin d’extraire du bitexte initial une petite collection de phrases pour le test.

Le format d’entrée de Whittle est un bitexte où les phrases sont reliées une à une. (figure 8)

1. tabling of documents2. house of commons

3. thursday , april 17 , 1986

1. pétitions2. chambre des communes

3. le jeudi 17 avril 1986

Figure 8: Exemple d’un corpus bitexte d’entraînement.

Le format des sorties de Whittle et les entrées de GIZA sont des textes formés de nombres qui représentent les indexes des mots et les fréquences de chacune des phrases.

Un exemple de 2 paires de phrases anglaise – française:

1 (fréquence de paire)1 1 226 5008 621 6492 226 6377 6813 226 9505 5100 6824 226 5100 5222 (anglais)

2769 155 7989 585 1 578 6503 585 8242 578 8142 8541 578 12328 (français)

1(fréquence de paire)

1 1 226 6260 11856 11806 1293 (anglais)

11 1 1 11 155 14888 2649 11447 9457 8488 4168 (français)

Figure 9: Illustration du format de corpus généré par Whittle. Les textes entre parenthèses ne font partie du format. Cet extrait contient deux paires de phrases.

3.1.3 GIZA

Cette section décrit la partie d’Egypt qui extrait l’information d’un corpus bilingue. Ce module appelé GIZA est basé sur les algorithmes décrits dans [Brown et al., 1993a].

Types de données d’entrées

Les paramètres de transfert d’un modèle 1 sont représentés par une grande matrice creuse à deux dimensions et initialisés uniformément en donnant une probabilité de transfert à chaque paire de mots croisés au moins une fois dans une paire de phrases. (voir le tableau 2, pour plus de détails sur le nombre de paramètres de transfert). Les probabilités d’alignement du modèle 2 peuvent être initialisées uniformément (1/I+1).

Pour les probabilités de transfert, deux possibilités (au moins):

Les initialiser uniformément (tout comme pour le modèle 1).
Utiliser les valeurs obtenues après entraînement d’un modèle 1.

La deuxième solution est préférable car l’entraînement du modèle 2 ne converge que vers un optimum local. De meilleures estimées de départ, offrent donc plus de chance de converger vers une solution raisonnable. Les deux options sont offertes par GIZA et on a choisi l’entraînement du modèle 2 initialisé par les probabilités du modèle 1.

Nous avons expérimenté les deux stratégies sur un corpus de 45 000 paires de phrases, la perplexité du modèle 2 initialisé par les paramètres du modèle 1 est de 30.59 cependant sans l’initialiser par les paramètres du modèle 1, elle est de 37.38. (nous expliquons la mesure de la qualité du modèle de traduction par la perplexité dans le chapitre 4, section 4.5).

De même, on peut entraîner le modèle IBM3 directement à un corpus, mais il est préférable d’initialiser les paramètres de IBM3 à partir des paramètres de IBM2. Cette étape n’est cependant pas aussi triviale que lors du passage de IBM1 à IBM2.

Si les probabilités de transfert se récupèrent sans modification, les probabilités d’alignement de IBM2 doivent être inversées car elles sont l’inverse de celles du modèle 3 (a(i|j,J,I) dans modèle 2 et d(j|i,J,I) dans modèle 3 ).

Le plus coûteux consiste à collecter les comptes pour initialiser les fertilités. [Brown 1993] proposent un passage du modèle 2 au modèle 3.

L’idée est de collecter les comptes normalisés par la probabilité de chaque alignement. Voir [Brown et al., 1993] pour un algorithme efficace.

Les sorties

Les résultats sont stockés sous forme de matrice creuse binaire :

A- La table de transfert (T-table)

Où les paramètres sont exprimés selon le format :

Source_id cible_id P(cible_id/source_id).

B- La table des fertilités N table

Il est possible d’utiliser des fertilités uniformes lors de l’entraînement du modèle 3 à partir du modèle 2, mais [Brown et al, 1993a] suggèrent une initialisation de fertilités qui prend le modèle 2 en compte.

Où les paramètres sont exprimés selon le format : Mot_id ……..

C- Les tables d’alignement

Les deux derniers modèles de traduction 2 et 3 possèdent des tables d’alignement.

Dans le cas d’un modèle 2 : A-tables est exprimé selon ce format : i j I J P(i | j, J,I).
Dans le cas d’un modèle 3 : D-tables selon le format suivant : i j I J P(j | i, J,I).

Où,

i = La position dans la phrase source.
j = La position dans la phrase cible.
I = La longueur de la phrase source.
J = La longueur de la phrase cible.

Et P(i | j, J, I) est la probabilité que le mot anglais de la position i sera à la position j dans une paire de phrases de longueur I et J.

3.1.4 Cairo

Cairo est un outil de visualisation développé pour les modèles de traduction statistiques d’IBM. Il permet de visualiser l’alignement proposé par IBM3 d’une paire de phrases ainsi que les probabilités impliquées. La figure 10 illustre une session avec cet outil.

Dans une interface utilisateur graphique (GUI), Cairo montre la paire de phrases en entrée (supposées l’une une traduction de l’autre) avec des lignes dessinées entre les mots alignés.

Cette représentation peut être montrée verticalement ou horizontalement. La figure 10 montre l’interface de cairo sur une paire de phrases. Toujours sur l’interface, on peut également voir les probabilités de fertilités et les autres paramètres etc…

Figure 10: Un exemple de cairo.

3.2 Conclusion

Nous avons présenté les outils du package Egypt qui permet l’entraînement des modèles IBM. Après la présentation de ce package Egypt, nous voulons mettre en preuve GIZA qui implémente les modèles de traduction IBM.

Dans ce contexte, nous avons utilisé un outil d’alignement de phrases conçu au RALI pour préparer le bitexte nécessaire pour l’entraînement. Nous présentons nos expériences sur GIZA dans le chapitre suivant tout en comparant cet outil avec un outil d’entraînement (RMMTK) développé au RALI.

On peut télécharger cet outil de http://www.clsp.jhu.edu/ws99/projetcs/mt/toolkit/
Voir [Langlais et al, 1998] pour une comparaison de différents algorithmes d’alignement de phrases.