Paris 2011

Session 2 - Translation as a profession / Le métier du traducteur

Bookmark and Share
Version imprimable
Sandrine Peraldi

La Post-édition à la portée du traducteur

Voir la video

Résumé

La communication proposée vise à décrire la mise en œuvre d’un projet de recherche appliquée dans le domaine de la post-édition, projet mené conjointement par des linguistes et des ingénieurs informaticiens. Ce projet a consisté en l’élaboration d’une application et d’une interface de post-édition dédiée, destinée à se greffer à un outil classique de traduction automatique (TA). La post-édition consiste en effet à apporter, par le biais d’une intervention humaine, des améliorations au texte cible produit par l’outil de TA. Malgré les récents progrès en la matière (notamment par le biais d’une combinaison règles syntaxiques/statistiques), les systèmes informatiques produisent toujours des traductions de qualité insuffisante, nécessitant une révision plus ou moins importante de la part du traducteur, notamment en fonction des domaines de spécialité traités. Pour peu que la syntaxe du texte s’éloigne de la simplicité des langages contrôlés, ce qui est presque toujours le cas, nombre de non-sens, faux-sens et autres maladresses d’ordre stylistique viennent ponctuer le texte d’arrivée. Certaines erreurs récurrentes sont inévitables dans la mesure où elles ne peuvent être corrigées en amont, via une modification des règles syntaxiques ou des dictionnaires intégrés dans le logiciel, compte tenu des limites technologiques, linguistiques et sémantiques de ce dernier.
C’est pourquoi, sous l’impulsion d’une société spécialisée dans le domaine de la TA, il nous a semblé essentiel de chercher à produire une solution permettant d’accélérer la phase de post-édition, à travers l’intégration d’outils spécifiques (marquage des mots non traduits, proposition de synonymes, possibilité de déplacement de mots, boîtes de dialogue, listes de choix accessibles par simple clic, etc.)
Nous proposons donc de passer en revue les différentes étapes ayant mené à l’élaboration de ladite application (constitution de corpus multilingues, typologie et analyse des erreurs les plus récurrentes, création d’une boîte à outils, tests sur utilisateurs, projection de coûts, etc.) et de procéder à une démonstration de cette interface. Nous nous interrogerons également sur la pertinence et l’efficacité des outils de traduction automatique ainsi que leur intégration dans l’environnement du traducteur.

Full text/Texte intégral

Introduction : contexte et objectifs du projet

1Le marché de la traduction dite pragmatique ou plus simplement technique est aujourd’hui de plus en plus dominé par la traduction automatique (TA). Nous en voulons pour preuve l’intégration et l’utilisation, depuis quelques années déjà, de cette technologie, au sein des services de traduction des différentes instances de la Commission Européenne. En guise d’illustration, la signature récente d’un protocole d’accord sur la traduction des brevets entre Google et l’Office Européen des Brevets (OEB). En effet, ce dernier utilisera le système de TA conçu par Google afin de traduire les brevets délivrés en Europe - mais aussi ceux provenant d’Asie, des Etats-Unis, du Canada, de l’Australie, de la Russie et de l’Inde bénéficiant d’une protection en Europe - dans les langues des 38 Etats membres de l’Organisation européenne des brevets, et ce, en vue d’une meilleure diffusion de ces derniers à usage des entreprises, inventeurs et scientifiques européens. En retour, l’entreprise américaine aura accès aux brevets de l’OEB, ce qui lui permettra évidemment d’optimiser sa technologie, une technologie en l’occurrence « corpus-based ». Cet exemple montre clairement l’évolution technologique de la TA depuis sa conception au début de la guerre froide, mais aussi et contre toute attente, son intégration progressive dans l’environnement du traducteur.

2Pour rappel, la traduction automatique peut se définir comme la traduction par des systèmes informatiques et sans intervention humaine de textes écrits en langue naturelle. Il existe à l’heure actuelle deux méthodes fondamentales en TA : la première, dite classique, se caractérise par l’utilisation de dictionnaires bilingues et de règles syntaxiques permettant de transférer et de reproduire, d’une langue à l’autre, la structure grammaticale des phrases traduites ; il s’agit notamment de la technologie employée par Systran. La seconde méthode, appelée méthode statistique (en anglais Statistics-Based Machine Translation) et évoquée plus haut, consiste à compiler, dans plusieurs langues, des corpus de textes toujours plus riches afin de permettre à l’outil de traduction d’établir des statistiques sur les termes et la syntaxe employés ; ces données sont ensuite exploitées par la machine qui traduira ainsi en fonction de l’équivalent le plus probable trouvé dans le corpus. Comme l’indique Théo Hoffenberg, fondateur et PDG de Softissimo (entreprise ayant conçu le logiciel Reverso), la tendance actuelle est à une combinaison de ces deux méthodes :

« La prochaine étape, c'est la fusion entre les deux méthodes de traduction : l'approche traditionnelle, où l'on applique des règles, corrigées et modifiées en permanence en fonction des erreurs repérées, et l'approche statistique, plus récente, qui permet d'identifier les traductions les plus probables à partir d'un corpus de traductions. »

3- mais aussi, selon nous, à l’utilisation combinée de la traduction automatique et de la traduction assistée par ordinateur (TAO) puisque les recherches en cours dans ce domaine tentent d’intégrer, en plus des critères purement linguistiques, des critères contextuels grâce aux mémoires de traduction ou à des systèmes d’identification de contexte.

4La traduction automatique trouve donc toute son importance dans le développement considérable des relations internationales qui caractérise notre époque. Sur le papier, elle a pour objectif d’accroître la productivité des traducteurs, tout en permettant aux entreprises ou aux organismes internationaux de réduire les coûts très lourds de la traduction interne. Néanmoins, malgré les innombrables progrès réalisés en termes de qualité, la traduction automatique se heurte à ce que nous appelons la « non-rationalité » des langues. Autrement dit, les logiciels de TA demeurent des systèmes informatiques qui traduisent mot à mot, générant de ce fait de nombreuses incohérences lexicales et incorrections syntaxiques et donc des documents de qualité insuffisante. En effet, pour peu que la syntaxe ou la terminologie du texte source s’éloignent de la simplicité des langues contrôlées, ce qui est presque toujours le cas, nombre de non-sens, faux-sens et autres maladresses d’ordre stylistique viennent ponctuer le texte d’arrivée. En effet, certaines erreurs récurrentes de la TA sont inévitables dans la mesure où elles ne peuvent être corrigées en amont, via une modification des règles syntaxiques ou des dictionnaires intégrés dans le logiciel, compte tenu des limites technologiques, linguistiques et sémantiques de ce dernier. Par conséquent, une intervention humaine est absolument indispensable pour corriger ces écueils et produire un document dont la qualité se rapproche autant que faire se peut d’une traduction dite « humaine ». Or, cette phase de révision, que constitue la post-édition, vient largement contrebalancer les gains de temps et de productivité apportées par l’utilisation d’un logiciel de TA. C’est pourquoi, sous l’impulsion d’une société spécialisée dans ce domaine, il nous a semblé essentiel de chercher à produire une solution permettant d’accélérer cette phase de révision.

5Nous proposons donc, dans la présente communication, de passer en revue les différentes étapes ayant mené à l’élaboration de ladite application et de procéder à une description des principales fonctionnalités de cette interface. Nous nous interrogerons également sur la pertinence et l’efficacité des outils de traduction automatique ainsi que leur intégration dans l’environnement du traducteur.

Description du projet

6L’élaboration de la présente application de post-édition relève des Projets de Recherche Appliquée mis en place par l’ISIT, dans le cadre du Diplôme de Communication interculturelle et de Traduction délivré par l’école. Il s’agit de projets à caractère professionnel ou relevant de la recherche, menés par les étudiants de cinquième année, sous l’égide d’un ou plusieurs directeurs de recherche, pour le compte de véritables commanditaires (entreprises d’ingénierie des connaissances, organismes de recherche, universités), en l’occurrence une société de traduction automatique de renom (que nous ne citerons pas pour des raisons de confidentialité). Il s’agit donc d’un projet ayant une forte dimension pédagogique, mais dont les avancées et/ou découvertes dans le domaine sont ensuite reprises et approfondies par le CRATIL, centre de recherche de l’école, dans une perspective de recherche fondamentale. Dans le cas présent, une collaboration a été mise en place avec l’ISEP (Institut Supérieur d’Electronique de Paris), les étudiants ingénieurs apportant leurs connaissances en matière d’ingénierie des connaissances et d’informatique, les linguistes les connaissances d’ordre linguistique.

7Le projet s’est déroulé sur une année universitaire, en plusieurs étapes majeures (représentées ci-après à l’aide des deux schémas suivants) que nous décrirons de façon chronologique.

Agrandir Image1
Agrandir Image2
Analyse linguistique

8Comme l’indiquent les deux graphiques précédents, la première phase du projet a consisté en une analyse linguistique des erreurs les plus récurrentes générées par le logiciel de TA afin d’identifier les solutions les plus efficaces et donc les outils informatiques appropriés pour y remédier. Cette analyse se présente sous la forme d’une typologie des erreurs que nous présentons et détaillons par la suite.

Constitution du corpus

9Pour ce faire, la toute première étape de ce travail d’analyse fut l’élaboration d’un corpus multilingue afin d’être soumis ensuite au processus de traduction automatique. Les langues de travail, les domaines de spécialités mais aussi le genre textuel ont été principalement déterminés par le commanditaire. Les langues de travail sélectionnées sont l’anglais, l’espagnol et l’allemand comme langues sources (le français étant systématiquement pris comme langue cible) permettant ainsi d’obtenir des erreurs syntaxiques diversifiées en raison des origines (romane et germanique) et des fonctionnements divergents de ces langues. Les domaines d’études choisis sont la médecine et l’informatique. Enfin, l’ensemble des documents figurant dans le corpus sont issus de l’encyclopédie en ligne Wikipedia. Deux raisons principales ont motivé ce choix. D’une part, l’accessibilité des documents et, d’autre part, la relative technicité de ces derniers. Nous savons, en effet, que plus les documents soumis à un logiciel de TA sont techniques, plus la qualité de la traduction est satisfaisante. En effet, l’ambigüité lexicale et contextuelle associée à des tournures syntaxiques complexes constituent, à ce jour, la principale source d’erreurs en traduction automatique. En choisissant des textes de vulgarisation, nous avons voulu nous assurer de la présence d’un certain nombre d’incohérences traductives afin d’étayer nos recherches.

Typologie des erreurs

10L’ensemble des traductions obtenues par le biais de la TA ont fait l’objet d’une relecture croisée afin d’identifier mais surtout d’analyser de façon approfondie les erreurs syntaxiques et terminologiques, menant à une typologie spécifique et exploitable. Une première distinction est faite entre les erreurs pouvant être corrigées en amont, c’est-à-dire au cours de la phase de pré-traduction ; et les erreurs dites inévitables, autrement dit ne pouvant être corrigées via un enrichissement des dictionnaires électroniques ou la création d’une nouvelle règle syntaxique, induisant de ce fait une révision de la part du traducteur. Bien que les erreurs appartenant à la première catégorie soient particulièrement représentées au sein du corpus, elles ne relèvent pas de notre cadre de recherche, nous les laissons donc de côté (en vue d’une étude ultérieure) pour ne prendre en compte que la seconde catégorie.

11D’un point de vue statistique, nous obtenons ainsi 237 erreurs en espagnol, 158 en allemand et 87 erreurs en anglais. Dans un souci d’organisation, la typologie d’erreurs est organisée sous forme de tableau dans lequel figurent les données suivantes : phrase source, phrase cible, nature et analyse de l’erreur, solution envisagée et enfin, outil proposé. Nous gardons en effet à l’esprit que le logiciel traduit des phrases mot à mot, il est donc essentiel de mener notre analyse segment par segment. En effet, certaines structures grammaticales qui paraissent évidentes aux yeux d’un locuteur natif ne peuvent être détectées d’emblée par le logiciel, à moins que des éléments morphologiques ou lexicaux repérables par ce dernier permettent d’identifier précisément ces constructions. Par ailleurs, les erreurs sont répertoriées par langue et celles provenant d’un même corpus sont mises en valeur à l’aide d’un jeu de couleur identique. Pour ce qui est des solutions envisagées, celles-ci sont d’abord rédigées sous la forme d’une phrase concise en français, puis reformulées ensuite par les ingénieurs sous la forme d’algorithmes spécifiques.

12En guise d’exemples, voici quelques catégories d’erreurs particulièrement récurrentes :

13- Confusion entre le nom et le verbe (y compris lorsque le premier élément a été identifié correctement) :

Texte source

In this treatment, the radiation dose is concentrated in a small area, and

the patient stays in the hospital for a few days.

Texte cible

Dans ce traitement, la dose de rayonnement est concentrée dans un petit secteur, et les séjours patients dans l'hôpital pendant quelques jours.

Erreur

Confusion verbe/nom

Solution

Le patient reste à l’hôpital

Outil

Clic-droit pour obtention des sens alternatifs

14- Problèmes de syntaxe : il s’agit de mots ou groupes de mots mal placés dans des structures parfois problématiques dans la langue source ou difficile à détecter pour l’ordinateur :

Texte source

However, because both are new, there are no interoperable infrastructures based on the

approaches yet.

Texte cible

Cependant, parce que tous les deux sont nouveaux, il n'y a aucune infrastructure interopérable basée sur les approches encore.

Erreur

Place de l’adverbe au sein de la phrase

Solution

Déplacer l’unité.

Outil

Glisser-déplacer.

15- Absence d’articles ou présence d’un article zéro :

Texte source

Another investigational approach is particle beam radiation therapy.

Texte cible

Une autre approche d'investigation est thérapie radiologique de faisceau de particules.

Erreur

Non-identification de l'article

Solution

En présence d’un substantif, proposer d’accéder à une liste déroulante des articles.

Outil

Boîte à articles.

16- Absence ou mauvaise traduction des prépositions lorsque celles-ci servent à faire le lien entre verbe et compléments ou entre nom et compléments :

Texte source

Automaten sind in der Informatik „gedachte Maschinen“, die sich nach bestimmten Regeln, dem Programm, Verhalten.

Texte cible

Des distributeurs automatiques se comportent dans l'informatique „appareils pensés

« , après certaines règles, le programme.

Erreur

Préposition incorrecte

Solution

Remplacer par la préposition « en ».

Outil

Boîte à préposition.

Création de l’interface

Spécifications techniques

17Sur la base des erreurs répertoriées et analysées, plusieurs solutions concrètes sont proposées afin d’accélérer le processus de révision. Ces solutions prennent la forme d’applications pratiques intégrées dans une interface conçue par les ingénieurs de l’ISEP et directement reliée au logiciel de TA. À terme, ces applications sont destinées à être implémentées directement dans le système de traduction automatique. En effet, le logiciel sur lequel nous travaillons possède déjà quelques fonctionnalités de post-édition disponibles dans la barre d’outils, parmi lesquels on trouve notamment l’accès aux différents sens d’un terme, la possibilité de supprimer un mot traduit ou de rétablir la source, une fonctionnalité de révision des mots inconnus, etc.

18L’interface conçue par les Isépiens, bien que non finalisée, constitue donc une possibilité d’évolution des options de post-édition du logiciel de TA. Elle se présente comme suit (Figure 1) :

Image3

Fig. 1 : Capture d’écran de l’interface de post-édition (page d’accueil)

19En termes de spécifications techniques, l’interface a été développée en PHP, ce langage étant en effet très répandu et supporté par la majorité des serveurs Web. Les ingénieurs ont utilisé plus précisément PHP5, qui propose de nombreuses fonctionnalités particulièrement utiles lors de la phase de développement : librairies préinstallées (par exemple pour le parsage des XML et la communication en SOAP), autochargement des classes (gain de performance), programmation orientée objet avancée, etc. L’interface fonctionne grâce à l’interaction de trois entités distinctes : l’interface homme-machine (IHM) côté utilisateur, le script et le moteur de traduction, côté serveur. Enfin, concernant l’interconnexion interface et système de traduction, lorsque l’utilisateur clique sur le bouton « Traduire » de l’interface, le texte est alors envoyé en brut au serveur (méthode « Post »). Il est alors pré-formaté en format Xliff avant d’être envoyé au serveur de traduction. Celui-ci renvoie alors un fichier également sous format Xliff contenant les textes source et cible ainsi que des informations issues du processus de traduction qui s’avéreront particulièrement utiles pendant la phase de révision (correspondance entre les mots du texte source et du texte cible, sens alternatifs, etc.). S’ensuit alors un processus de restructuration des données reçues afin de les rendre exploitable par l’IHM.

Fonctionnalités actuelles et futures

20L’interface conçue par les ingénieurs propose une présentation classique des textes source et cible, en vis-à-vis, ainsi que représentée par la capture d’écran ci-dessous (Figure 2). Une fois le texte traduit, une barre d’outils permet d’accéder aux solutions de post-édition imaginées par les deux équipes.

Agrandir Image4

Fig.2 : Capture d’écran de l’interface de post-édition (présentation en vis-à-vis)

Les « boîtes »

21Les boîtes constituent le premier et le principal outil pensé pour l’interface de post-édition, l’objectif étant de donner au traducteur un accès rapide aux principaux éléments à corriger. En effet, la recherche systématique de gains de temps a largement guidé notre réflexion, lors de la conception des applications à implémenter. Ces boîtes se présentent en réalité sous la forme de listes déroulantes permettant aux utilisateurs de choisir parmi une suite de pronoms, articles, prépositions ou encore de signes de ponctuation. Elles permettent de remplacer l’unité problématique par le biais d’un simple clic. L’utilisateur peut choisir de les faire apparaître de façon permanente (tel que représenté plus haut) ou au contraire les faire disparaître de l’écran (à l’aide du bouton symbolisé par un balai).

22Quatre catégories de boîtes sont proposées :

- La boîte à prépositions :
Il s’agit d’un outil extrêmement facile et rapide à utiliser. Il permet d’optimiser et d’accélérer la révision. Cet outil sert à corriger les erreurs ou les absences de prépositions les plus fréquentes en un temps relativement court et de manière efficace. Il existe deux sortes de prépositions, celles qui introduisent un groupe nominal complément circonstanciel et celles qui lient un verbe à son complément ; mais, pour des questions de logistique, cette distinction n’a pas été reproduite. En effet, une seule boîte a été implémentée pour toutes les prépositions, sans aucune mention quant à leur nature/fonction syntaxique.

- La boîte à articles :
Il s’agit également d’une application majeure, à l’aune des erreurs relevées au sein du corpus. La non reconnaissance du genre et du nombre du terme est souvent à l’origine d’une traduction erronée des déterminants. À l’instar de la boîte précédente, l’utilisateur peut supprimer un article se trouvant en surnombre.

- Les boîtes à pronoms :
Elles sont au nombre de deux puisqu’elles concernent les articles personnels et relatifs. Leur fonctionnement est similaire à celui des boîtes précédentes.

Image5

Fig.3 : Capture d’écran des boîtes

23Autres fonctionnalités

- Le Glisser-Déplacer :
Cet outil, très répandu parmi les logiciels de traitement de texte, permet de déplacer un mot sans avoir à le réécrire. Cette fonction s’avère particulièrement utile pour des textes sources allemands et anglais dont la syntaxe diverge, à maintes reprises, grandement du français, certaines erreurs résultant donc d’une mauvaise adaptation de la syntaxe source à la langue cible. Il suffit à l’utilisateur de sélectionner l’unité problématique et de la « déposer » à l’emplacement adéquat dans le texte cible. Il est également possible de déplacer un mot à l’aide des flèches du clavier. Nous avions par ailleurs envisagé la possibilité de sélectionner un groupe de mots afin de les déplacer simultanément.

- La fonction Sens alternatifs.
Cette fonctionnalité permet d’accéder en un simple clic (et toujours par le biais d’une liste déroulante) à l’ensemble des traductions/sens disponibles dans les dictionnaires du système de TA autour d’une même unité. En effet, le logiciel propose et insère d’emblée l’équivalent le plus usité, bien qu’il ne s’agisse pas toujours de la traduction la plus pertinente. Cette fonctionnalité a pour objectif de minimiser les difficultés de contextualisation non gérées par le logiciel.

- La fonction Édition manuelle.
Cette fonctionnalité permet de modifier les mots présents dans le texte, en ouvrant des zones de saisie de texte. Elle s’avère particulièrement utile lorsque la phrase doit être remaniée intégralement.

- La fonction Ne pas traduire.
Comme son nom l’indique, cet outil (représenté à la figure 4) offre la possibilité de laisser une unité lexicale telle qu’elle apparaît dans le texte source. Cette application concerne principalement les noms propres homonymes de mots communs, qui sont donc automatiquement traduit par le logiciel (ex : le logiciel traduit systématiquement « Apple » par « pomme », alors qu’il peut s’agir de la marque américaine Apple®).

Image6

Fig.4 : Fonctionnalité Ne pas Traduire

24Pistes à explorer

25D’autres applications ont également été conçues sans avoir été implémentées, faute de temps. Sur la base de certains dictionnaires électroniques unilingues, il a été envisagé d’incorporer deux onglets spécifiques : un premier onglet Conjugaison, permettant d’accéder à l’ensemble des conjugaisons des verbes (à tous les temps et à tous les modes) ; et un second onglet Accords, donnant accès aux noms communs ou adjectifs déjà accordés, toujours en vue d’un processus de révision accéléré. À noter qu’il existe déjà une fonctionnalité conjugaison au sein de la plateforme de TA, mais elle ne s’applique qu’aux verbes répertoriés dans les dictionnaires électroniques.

26Enfin, l’autre amélioration technique qui nous paraît essentiel à l’optimisation de la présente interface serait une fonctionnalité de mémorisation des corrections apportées par le réviseur, afin de réduire au strict minimum les interventions de ce dernier. En effet, la possibilité d’appliquer une action unique à un ensemble d’erreurs similaires ou récurrentes représenterait un gain de temps considérable.

Preuve de concept et perspectives

27Suite à la conception de l’interface, plusieurs moyens ont été mis en œuvre afin de tester la pertinence, la viabilité mais aussi la rentabilité de l’outil, les considérations économiques étant bien évidemment au cœur du développement et de l’adhésion des traducteurs et des entreprises aux outils de traduction automatique et de traduction assistée par ordinateur.

28Nous avons fait appel à trois instruments de mesure spécifiques : la réalisation d’une journée test, des statistiques d’utilisation de l’outil et une évaluation des coûts d’utilisation.

Journée test

29Une journée test a été organisée auprès d’étudiants en traduction afin d’éprouver à la fois la convivialité de l’outil créé mais également son utilité. Cette journée a servi de véritable preuve de concept afin d’évaluer la pertinence de chaque fonctionnalité intégrée dans l’application et ainsi prouver leur bien-fondé auprès du commanditaire. Sur un plan technique, ce test a fourni des informations capitales quant à l’optimisation des dites applications ainsi qu’au repérage de certains bugs informatiques qui n’avaient pas pu être détectés auparavant.

30L’objectif principal du test était donc d’identifier les fonctionnalités les plus usitées, en partant du postulat que l’utilisateur fera naturellement appel aux applications générant les gains de temps les plus significatifs. Les objectifs secondaires du test étaient, quant à eux, les suivants : établir une comparaison chiffrée entre le temps nécessaire pour réviser un texte à l’aide de l’interface et celui consacré à une révision manuelle. Et, par ailleurs, déterminer si un correcteur ne maîtrisant pas la langue source est en mesure de réviser un texte obtenu par traduction automatique, et ce, de façon optimale.

31Aussi, une quinzaine d’étudiants allant de la troisième à la cinquième année ont accepté de se prêter à l’exercice, dans leurs combinaisons linguistiques respectives.

Statistiques

32Nous obtenons les résultats suivants en termes de temps de révision (voir Figures 5 et 6).

33Ainsi que le montrent les deux tableaux ci-dessous, la comparaison du temps de révision à l’aide de l’interface et du temps de correction manuelle n’est, de prime abord, pas concluante, avec des temps inférieurs pour la révision manuelle. En effet, l’interface n’étant pas tout à fait optimisée lors des phases d’évaluation, les étudiants ont parfois été contraints de multiplier les manipulations avant d’obtenir l’action souhaitée, ce qui a augmenté de façon artificielle les temps de post-édition via l’interface.

Agrandir Image7

Figure 5 : Temps de révision à l’aide de l’interface (*langue non maîtrisée par l’utilisateur)

Agrandir Image8

Figure 6 : Temps de révision manuelle (*langue non maîtrisée par l’utilisateur)

34Le diagramme ci-dessous (Figure 7) présente les statistiques d’utilisation des outils pour l’ensemble des langues fournies par l’interface à la suite de la journée d’évaluation. Les outils sont donc nommés dans cette section tels qu’ils le sont dans le code de l’interface.

Agrandir Image9

Figure 7 : Statistiques globales sur les outils

35Premier constat : Les actions ChangeValue et ChangeValueManually représentent à elles seules la moitié des manipulations. ChangeValueManually ne constitue pas un outil à proprement parler car il s’agit du remplacement manuel d’un mot par un autre ou par plusieurs, en effectuant un double-clic sur celui-ci afin de pouvoir le modifier. Son utilisation massive découle néanmoins du fait que l’action ChangeValue, qui propose les sens alternatifs issus des dictionnaires électroniques et les termes présents dans les différentes boîtes, ne permettait pas d’accéder aux formes fléchies des termes. Il y a là une première amélioration à mettre en place par le concepteur initial du logiciel.

36Par ailleurs, la fréquence élevée de l’action ChangeValueManually peut également être imputée au fait que l’interface, à ce stade, ne proposait aucune solution permettant d’ajouter une nouvelle unité via la liste déroulante. L’unique possibilité offerte à l’utilisateur était de sélectionner un mot pour le modifier et de rajouter l’unité manquante à la suite de ce dernier. Néanmoins, une correction technique de l’interface en temps réel, dès la détection de ce problème au début du test, a permis de régler ce problème.

37Les outils MoveLeft et MoveRight (qui permettent de déplacer une unité à l’aide des flèches directionnelles droite et gauche du clavier) sont également particulièrement prisées, bien que les statistiques y afférent aient été quelque peu exagérées en raison de manipulations superflues. En effet, l’impossibilité de recourir aux flèches directionnelles afin de déplacer le curseur au sein de la zone de saisie de l’outil ChangeValueManually a eu pour conséquence de décaler l’ensemble de la zone au sein du texte, impliquant des manipulations inutiles.

38En revanche, l’outil DoNotTranslate n’a été que peu employé. Mais cette faible utilisation correspond au nombre restreint d’occurrences pour lesquelles un nom propre ou déposé a été traduit par erreur par le logiciel.

39En outre, l’analyse des outils par langue a fait ressortir d’autres tendances.

Agrandir Image10

Fig.8 : Statistiques par langue des outils utilisés

40En premier lieu, l’outil MoveLeft est significativement plus utilisé en allemand que dans les deux autres langues, confirmant notamment la particularité allemande du verbe placé en fin de phrase qu’il faut avancer entre le sujet et les compléments dans le texte cible français, lorsque le logiciel n’a pas été en mesure de le faire.

41L’outil DoNotTranslate a uniquement été employé en anglais, notamment lorsque le texte mentionnait, entre autres, la société Apple®, marque ayant comme dénomination un nom courant. La présence de la majuscule n’a pas permis au logiciel de détecter qu’il s’agissait d’une entité nommée (de type personne morale). Il s’agit là d’une possibilité d’amélioration du système dans la phase de pré-traduction. À titre indicatif, les erreurs nécessitant une modification des règles syntaxiques (accompagnées d’une solution sous forme de nouvelle règle) ont été répertoriées et transmises au commanditaire.

42En espagnol, deux outils ont été particulièrement privilégiés : ChangeValueManually et DeleteWord. La première action concernait principalement un remaniement syntaxique des phrases, la construction de ces dernières était souvent incorrecte en français. Le second outil a été mis à profit pour corriger les cas fréquents de doublement des prépositions à la traduction, en supprimant la deuxième occurrence de la préposition en question.

Evaluation des coûts

43Avant de lancer un produit sur le marché, il faut s’assurer de sa pertinence et de sa rentabilité. Une étude comparative du coût de post-édition à l’aide de l’interface et du coût de correction manuelle a donc été menée sur la base des temps de révision obtenus dans chaque langue.

44Le tableau ci-dessous (Figure 9) montre clairement que l’interface n’est pas viable, à ce stade de développement, c’est-à-dire au moment de son évaluation mi-mai. Néanmoins, cette dernière constituant un premier test préliminaire, ces résultats ne représentent en aucun cas un constat d’échec.

Agrandir Image11

45À notre décharge, plusieurs facteurs ou « erreurs » d’évaluation ont faussé les statistiques, et ce, au détriment de l’interface de post-édition. En premier lieu, le nombre restreint de « testeurs » a réduit nos marges de manœuvre en termes d’évaluation : un plus grand nombre de recrues aurait notamment permis de scinder les volontaires en plusieurs groupes, de les répartir équitablement selon leurs combinaisons linguistiques respectives et d’assigner un ordre de complétion des tâches différent à chacun d’entre eux. Cela aurait également permis de gommer, dans une large mesure, l’effet d’apprentissage de l’interface, que nous évoquons ci-après.

46Deuxième facteur pénalisant : la révision manuelle a été systématiquement menée après la post-édition via l’interface. Par conséquent, les textes étaient donc déjà connus des réviseurs et la correction manuelle d’autant plus rapide, favorisant ainsi les statistiques y afférent.

47Enfin, facteur le plus important : le temps de familiarisation de l’interface par ses utilisateurs a été comptabilisé dans le temps de révision, pénalisant de ce fait ce dernier. La comparaison par combinaison linguistique des différents temps de révision permet d’identifier clairement cet effet d’apprentissage. En effet, la prise en main du logiciel s’est d’abord faite lors de la révision des textes anglais. Or, le fait que le temps nécessaire à la révision de ces textes soit supérieur à celui des autres langues, alors même que l’anglais représente la langue dans laquelle le logiciel de TA est le plus performant, nous confirme que le temps consacré à la prise en main de l’interface par les participants vient fausser les chiffres obtenus. À l’inverse, s’agissant du texte espagnol, la différence de temps entre la révision manuelle et celle obtenue à l’aide de l’interface est minime, attestant la viabilité de notre système. Rétrospectivement, il aurait fallu proposer aux volontaires, dans un premier temps, un court texte leur permettant de se familiariser avec l’ensemble des fonctionnalités de l’interface afin d’éviter toute manipulation superflue qui viendrait fausser les résultats.

48L’ensemble des statistiques issues des résultats du test doivent donc être mises en perspective et ne peuvent en aucun cas témoigner de la non-validité de l’interface de post-édition.

49Enfin, cette évaluation sur le terrain n’était que la conclusion de la première étape de développement de l’interface. Il va de soi que l’élaboration d’un tel système, dans des conditions professionnelles ou de recherche, se fait traditionnellement sur une période plus longue et/ou plus soutenue que celle dont nous disposions (en l’occurrence une année universitaire), notamment avec une alternance de phases de développement et de phases de test lors de sa conception.

Conclusion

50Malgré les écueils rencontrés et les améliorations à apporter, ce projet de recherche appliquée a constitué à la fois une formidable expérience pédagogique pour les étudiants et une avancée majeure en traduction automatique. En effet, les étudiants ont pu mener de bout en bout un véritable projet professionnel aux enjeux majeurs, impliquant la réalisation d’un cahier des charges, la mise en place de phases de développement et d’évaluation, tout cela sous l’égide d’un véritable commanditaire. La collaboration entre linguistes et ingénieurs s’est avérée plus que fructueuse : en effet, le travail conjoint de ces deux équipes a non seulement permis une véritable réflexion sur différents aspects linguistiques (syntaxe, terminologie, problèmes d’équivalence, etc.) mais également l’intégration de cette réflexion dans un domaine purement informatique et sa concrétisation sous forme d’une interface viable et fonctionnelle. La réussite de cet exercice témoigne, à notre sens, de la nécessité de mettre en place des projets interdisciplinaires et de travailler main dans la main avec différents acteurs (informaticiens, experts, scientifiques, industriels, etc.) pour faire avancer la recherche. Enfin, sur ce dernier plan, la réalisation de ce projet a permis d’identifier le chemin restant à parcourir en traduction automatique. La typologie des erreurs montre clairement que les logiciels de TA ne sont pas encore en mesure de produire des traductions de qualité satisfaisante, bien que permettant largement de « défricher » le sens global d’un texte. Leur intégration dans l’environnement du traducteur, comme outil d’aide à la traduction et non comme un système destiné à remplacer ce dernier, passe par la mise en place de fonctionnalités avancées en post-édition. En effet, qu’il s’agisse de la phase de pré- ou de post-traduction, l’intervention d’opérateurs « humains » (linguistes et ingénieurs) demeure indispensable pour la viabilité et l’utilisation de ce genre de systèmes, via la constitution de corpus toujours plus vastes, l’enrichissement des dictionnaires, la création de nouvelles règles syntaxiques et une révision accélérée des erreurs de traduction du logiciel.

51Enfin, bien que ce projet fut satisfaisant à tout point de vue, nous sommes également conscient de ses limites en termes de ressources humaines, financières et technologiques. Il est évident qu’une collaboration plus poussée entre laboratoires de recherche et entreprises de TA, impliquant entre autres un partage du savoir-faire et un financement d’ordre privé ou public, permettrait d’approfondir les recherches et d’obtenir des avancées majeures en la matière, menant à l’élaboration d’une interface de post-édition optimale.

Bibliographie

Clas, André. Bouillon, Pierrette (1993) « TA-TAO : Recherches de pointe et applications immédiates. » AS Actualité scientifique, Acte du Colloque de Montréal. 521 p.

Loffler-Laurian, Anne-Marie (1996). La traduction automatique. Presses Universitaires du Septentrion. Collection Traductologie. 156 p.

Guzmàn, Rafael (2008), « Advanced Automated MT post-editing. », Multilingual, MultiLingual Computing, Inc., Sandpoint, Idaho.

TAUS Report (2008), « Post Editing: Update on Best Practices ».

Belorgey, Gregory. Bessis, Diane. Feutrie, Laurent. Henriques-Pousada, Rita-Sophie. Hureau, Caroline. Josset, Anne-Lise. Kiss, Charlotte. Mathiaud, Alexandre. Schindler, Bertille (2008). Mémoire de Recherche appliquée, sous la direction de Sandrine Peraldi, ISIT.

To cite this document/Pour citer ce document

Sandrine Peraldi , «La Post-édition à la portée du traducteur», Tralogy [En ligne], Tralogy I, Session 2 - Translation as a profession / Le métier du traducteur, mis à jour le : 21/05/2014,URL : http://lodel.irevues.inist.fr/tralogy/index.php?id=107

Quelques mots à propos de :  Sandrine Peraldi

CRATIL (ISIT), CLILLAC-ARP (PARIS 7)