Comparaison entre RMTTK et GIZA, logiciels de la traduction
4.7 Une comparaison entre RMTTK et GIZA
Pour mettre à l’épreuve notre modèle, nous le comparons avec RMTTK (RALI Machine Translation Toolkit), un package offrant l’entraînement des modèles 1 et 2 implémenté au RALI depuis quelques années. Ainsi, nous avons exécuté les 2 logiciels du RMTTK et GIZA sur le même corpus d’environ 1.4 millions paires de phrases.
On présente brièvement les temps d’exécution, les résultats et enfin quelques distributions obtenues par les deux programmes. Le temps d’exécution des entraînements sous GIZA et RMTTK sont très différents (voir tableau 7).
Pour le modèle 1, RMTTK est environ deux fois plus rapide. Pour le modèle 2, RMTTK est de 8 fois plus rapide. On a lancé les deux programmes sur deux machines clac (tableau 7).
GIZA | RALI | ||
Modèle | Temps en minutes | Modèle | Temps en minutes |
IBM 1 | 270 min | IBM 1 | 86 min~ 1:26h |
IBM 2 | 861 min | IBM 2 | 82 min~1:21h |
Tableau 7: Les temps d’exécution d’un entraînement avec GIZA et RMTTK.
Noter qu’on n’a pas implémenté le modèle 3 au RALI jusqu’à présent.
L’espace mémoire requis par RMTTK est également moindre que celui nécessaire à GIZA, comme on a déjà expliqué 993MO pour le modèle 1 et cela implique une vitesse lente.
Cependant RMTTK réserve seulement 559 MO de la mémoire pendant l’exécution. Une raison qui peut provoquer la grande différence entre ces deux outils d’entraînement est que RMTTK a de meilleures structures de données.
On présente maintenant une brève comparaison des modèles IBM2 obtenus par les deux systèmes d’entraînement en terme du nombre de paramètres, des probabilités, et quelques exemples de mots. RMTTK a un nombre de paramètres de 34 969 331, supérieur à celui de GIZA (8,846,847).
Ce n’est pas un avantage pour lui, car dès que le nombre de paramètres augmente, alors les probabilités de transfert diminuent du fait que la somme de probabilités vaut 1.
RMTTK offre cependant un mécanisme qui permet de filtrer ces paramètres en fonction de leur gain estimé à la prédiction d’un corpus de test. Nous n’avons pas testé ce mécanisme dans notre travail.
Exemples :
La table 8 représente deux mots pris au hasard, on voit que les 10 premiers mots sont vraiment très proches. Les associations les plus probables obtenues par les deux packages sont assez proches.
En revanche, les modèles obtenus divergent rapidement sur les probabilités les plus faibles. Ici, étant la résultante du seuillage effectuée par GIZA, que RMTTK n’effectue pas.
Compute | Message | ||
RMTTK | GIZA | RMTTK | GIZA |
Nombre de mots associés | |||
126 | 34 | 5582 | 408 |
Mot et probabilité | |||
calculer 0.16 | calculer 0.179 | message 0.59 | message 0.6 |
concordent 0.083 | concordent 0.093 | le 0.035 | le 0.0305 |
comptabiliser 0.042 | inventer 0.046 | transmettre 0.025 | transmettre 0.023 |
instaurant 0.042 | comptabiliser 0.046 | comprendre 0.022 | comprendre 0.021 |
pleine 0.042 | dus 0.046 | transmis 0.016 | transmis 0.015 |
volonté 0.042 | volonté 0.046 | compris 0.013 | compris 0.0136 |
colle 0.042 | colle 0.0466 | clair 0.012 | clair 0.012 |
dus 0.042 | parfait 0.04664 | que 0.01 | nous 0.0083 |
inventer 0.042 | correspond 0.0463 | nous 0.0091 | entendre 0.007 |
compter 0.041 | tels 0.0454 | entendre 0.0085 | dire 0.0073 |
Tableau 8: Deux mots exemples de RMTTK et GIZA, on a seulement pris les dix premières probabilités pour chaque mot.
4.8 Conclusion
Nous avons montré que GIZA, bien que plus gourmand en temps et en espace mémoire étant un package viable pour l’entraînement de modèles IBM. Des paramètres obtenus par GIZA sont légèrement différents de ceux obtenus par le package RMTTK, ce qui est la résultante du filtrage opéré par GIZA.
La performance, la simplicité, l’accès simple et rapide aux paramètres d’un modèle de traduction sont des facteurs principaux cherchés par les programmeurs ayant pour objectif de concevoir un algorithme efficace et performant qui traduit rapidement.
D’après nos expériences, nous avons montré que GIZA répond à ces préoccupations. Nous utilisons donc les paramètres obtenus par l’entraînement de cet outil afin de développer nos décodeurs.