Le nombre d’itérations et les temps de traduction, Greedy
5.2.5 Le nombre d’itérations et les temps de traduction
Nous avons utilisé notre algorithme pour traduire 2376 phrases dont la longueur n’excédait pas 30 mots (français). La figure 33 montre le nombre d’itérations (moyen) effectué en fonction du nombre de mots de la phrase à traduire. L’accroissant du nombre d’itérations suit une courbe linéaire.
Figure 33: La moyenne d’itérations, le nombre de substitutions et permutations augmentent linéairement avec la longueur de la phrase à traduire.
On observe, d’après la figure 33 que la plupart des itérations sont des substitutions (72%), viennent au deuxième rang les permutations (19%); cependant les deux autres opérations s’appliquent moins souvent (6% pour l’opération de la fertilité et 3% pour l’insertion).
Par exemple, une phrase française de dix mots est traitée par notre algorithme en 5 itérations (en moyenne). 4 de ces itérations font intervenir une substitution. (Figure 34)
Figure 34: La distribution du nombre d’itérations et de substitutions.
L’expérience sur un sous-ensemble du corpus précédent de 66 phrases (figure 34) dont les phrases françaises sont de 10 mots, montre que la moyenne du nombre d’itérations est 5, que l’algorithme itère au moins deux fois et que le nombre maximal d’itérations est 9. Pour la substitution, l’opération la plus fréquente, est appliquée au moins deux fois.
L’entraînement du modèle 3 qui intègre la notion de la fertilité montre que 90% des mots anglais ont de fertilité 1 alors ceci explique que les opérations de fertilité et d’insertion de mots spurious s’appliquent rarement (9%). D’autre part, la position de l’adjectif en français est après le nom cependant en anglais c’est l’inverse.
De ce fait, on comprend pourquoi la permutation est assez fréquente. Le fait que chaque mot anglais possède différentes traductions explique de manière naturelle que les substitutions soient nombreuses.
D’après l’expérience sur le même corpus de 2376 phrases dont les phrases françaises sont constituées d’au plus 30 mots, on observe que la traduction des phrases de longueur d’au plus 10 mots sources prend au plus une seconde; les phrases constituées de 10 à 20 mots prennent entre une et deux secondes et les phrases dont les longueurs plus de 20 mots prennent au plus 4 secondes.
Ces temps sont inférieurs à ceux de l’algorithme DP décrits dans la section (5.1). À titre d’exemple, traduire une phrase de 10 mots prenait avec cet algorithme environ 9 secondes. (la différence sur des phrases plus longues serait encore plus parlante).
5.2.6 Exemples de résultats obtenus
Nous reportons ici quelques exemples de traductions produites par notre algorithme pour des phrases du Hansard non présentes dans le corpus d’entraînement.
Phrase | mots | Les phrases sources et les traductions |
Source | 5 | Le jeudi 17 avril 1986 |
Décodeur | 5 | On february 17 april 1986 |
Humain | 6 | thursday , april 17 , 1986 |
Source | 7 | La charte canadienne des droits et libertés |
Décodeur | 7 | the canadian charter of rights and freedoms |
Humain | 6 | Canadian charter of rights and freedoms |
Source | 12 | m. nunziata : monsieur le président , j’ invoque le règlement . |
Décodeur | 12 | mr. nunziata : mr. speaker , i rise to of order . |
Humain | 12 | mr. nunziata : mr. speaker , on a point of order . |
Source | 17 | les pétitionnaires demandent que la loi canadienne sur la santé soit inscrite dans la constitution canadienne . |
Décodeur | 17 | the petitioners ask that the bill on canadian health to be placed in the canadian constitution . |
Humain | 16 | these petitioners ask that the canada health act be enshrined in the constitution of canada . |
Source | 20 | ils doivent engager des frais importants pour assister et participer aux audiences de l’ office national de l’ énergie . |
Décodeur | 20 | they must commit some important tuition to attend and participate the hearings of the board of national the energy . |
Humain | 17 | they are faced with substantial costs to attend and to participate in national energy board hearings . |
Source | 19 | je n’ ai pas l’ intention de faire une longue déclaration , mais je voudrais faire valoir quelques points . |
Décodeur | 20 | i have listened not the intention of doing a long statement , but i would make points few points . |
Humain | 19 | i do not want to make a long statement but i would like to make a few points . |
Source | 19 | cependant , en tant que membre de ce comité , je ne m’opposerais pas à réexaminer cet usage . |
Décodeur | 20 | however , in both the member of this committee , i cannot convince me not to review this practice . |
Humain | 17 | as one member of the committee i would certainly not object to revisiting that particular rule . |
Source | 17 | La douleur doit être encore plus vive lorsque l’ enfant a été victime d’un meurtre. |
Décodeur | 17 | the pain will be even more intense when the child has been victims of a murder . |
Humain | 19 | the pain these parents feel is even greater knowing they have lost a child as a murder victim . |
Source | 19 | étant moi-même mère , je peux imaginer à quel point cela doit être dur de perdre un enfant . |
Décodeur | 19 | having myself mother , i can imagine at what point that must be tough to lose a child . |
Humain | 16 | as a parent I can imagine how difficult it would be to lose a child . |
Tableau 15: Exemples de traduction, extraits d’un corpus test (N=10). Humain est la traduction produite par un traducteur.
5.3 Greedy initialisé par la traduction produite par DP
On a vu dans les sections précédentes que le décodeur DP est lent mais qu’il parcourt une portion importante de l’espace de recherche.
Néanmoins, il y a des filtres pour rendre les temps de réponse « acceptables ». Nous avons voulu voir si le greedy ne pouvait pas éventuellement trouver une solution meilleure que celle de DP en étant initialisée par DP. Dans ce but, on propose dans cet algorithme que la solution initiale du greedy soit la solution obtenue par le décodeur DP.
Les paramètres des hypothèses de l’algorithme DP (la fertilité, la position source) sont réutilisés pour le décodeur greedy et les mêmes opérations sont appliquées sur les résultats de DP. Nous appelons cette variante de l’algorithme greedy+.
L’expérience lancée sur un corpus de 2376 phrases a pris 218 secondes pour tout le corpus. Une partie de corpus de 403 phrases (~ 17%), aucune itération n’a été possible et la plupart de phrases non modifiées sont les phrases courtes (longueur inférieure à 10 mots).
Figure 35: Les nombres de phrases itérées par greedy+.
La figure 35 montre que 62% des alignements optimaux sont atteints après au plus 3 itérations. Pour 16 phrases seulement, l’algorithme produit une solution après 8 itérations. Les opérations appliquées sont des substitutions.
Les critères de filtrage ne permettent donc pas d’atteindre toujours l’optimum au sens des modèles (dans 83% des cas). Donc on filtre trop.
Nous discutons d’une façon détaillée les performances des décodeurs et nous présentons la perte de qualité de la traduction provoquée par le filtrage dans le chapitre 6 mais nous présentons dans la section suivante des exemples pour argumenter les résultats.
5.3.1 Exemples de résultats obtenus
On prend quelques exemples pour commenter les résultats.
1)
- Source : le jeudi 17 avril 1986
- DP : thursday , april 17 , 1986
- Greedy+:: thursday , april 17 , 1986
- Humain : thursday , april 17 , 1986
Dans cet exemple, on remarque que le décodeur greedy+ ne peut pas améliorer la traduction de DP alors il n’y a pas de perte au sens des modèles causée par le filtrage.
2)
- Source : adoption des motions portant présentation et première lecture .
- DP : concurrence motions for introduction and first reading .
- Greedy+: concurrence motions introduction and first reading .
- Humain : motions for introduction and first reading deemed adopted .
Le décodeur greedy+ donne une fertilité 2 à motions (élimination du mot for) de la traduction produite par DP. Dans cet exemple, la traduction produite par greedy+ éloigne de la traduction humaine (en terme de nombre des mots communs entre la référence et la traduction) mais s’améliore au sens des modèles.
3)
- Source : je dépose aujourd’hui une autre pétition qui porte des centaines de signatures.
- DP : i now table another petition which concerns hundred of signatures .
- Greedy+: i present another petition which concerns hundred of signatures .
- Humaine:i would like to introduce another with several hundred signatures today .
Les évaluateurs humains trouvent que la traduction produite par DP est meilleure que celle produite par greedy+. Cependant au sens des modèles, la traduction de greedy+ est la meilleure.
4)
- Source : il ne désigne pas nécessairement un homme .
- DP : he does not necessarily signal a man .
- Greedy+: it does not necessarily signal a man .
- Humaine: it does not refer to a man .
Dans cet exemple, geedy+ améliore la traduction au sens des modèles d’autant plus que cette traduction au point de vu humain est la meilleure. Ainsi le filtrage du DP avait de mauvais effet sur la traduction.
Nous l’avons vu sur ces exemples, chaque algorithme propose sa traduction. Il arrive que les traductions soient les mêmes et peut-être non, dans ce dernier cas, il n’est pas facile de choisir la meilleure traduction : un meilleur score d’alignement n’est pas nécessairement garant d’une meilleure traduction (ceci traduit les faiblesses des modèles sous-jacents utilisés). Nous aborderons dans le chapitre suivant les problèmes d’évaluation.