Mieux traduire

Holger SCHWENK, Professeur, directeur du Lium, Laboratoire d'informatique de l'Université du Maine. www-lium.univ-lemans.fr

Les recherches en traduction automatique ont débuté dès les années 1950, en pleine guerre froide. La firme américaine IBM a alors mis au point un système de traduction entre le russe et l'anglais fondé sur l’analyse syntaxique et sémantique (du sens) des phrases. Cette approche peut être très performante mais nécessite un énorme effort de développement pour décrire chaque langue et, sur le long terme, de mise à jour par des linguistes bilingues.

Grâce à l’augmentation de la puissance de calcul des ordinateurs, une autre approche, dite statistique, s’est récemment généralisée. Son principe repose sur la construction automatique (par un logiciel) de deux modèles : une table de traduction, établie à partir de textes bilingues (des textes et leurs traductions humaines qui proviennent souvent d’organisations internationales : ONU, Commission européenne...), et un modèle de langue cible construit à partir de textes monolingues (journaux, documents publiés sur le web...). Le premier modèle est constitué de statistiques de traductions de mots et d’expressions ; le second compile des statistiques de variantes orthographiques ou syntaxiques de mots et d'expressions de la langue cible (cf. schéma ci-dessous). Les performances d’un système combinant ces modèles ne sont satisfaisantes que si le volume des textes traités se compte en dizaines voire en centaines de millions de mots.

Les méthodes statistiques ont plusieurs avantages pratiques sur les méthodes analytiques : le développement plus rapide d'un système de traduction pour une nouvelle paire de langues ; moins de risques de produire des traductions incorrectes quand les textes à traduire comportent des erreurs, etc. C’est avec elles que de nombreux documents sur Internet et modes d'emploi de logiciels sont désormais traduits. Dans notre laboratoire, nous avons développé des systèmes très performants qui concernent en particulier l’anglais, l'arabe, le mandarin et le français. Nous avons amélioré le traitement statistique des ressources textuelles disponibles et mis au point des méthodes d'acquisition automatique de ressources supplémentaires. Nous travaillons aujourd’hui au développement de moyens de correction du système, comme l’intégration, via une saisie d’utilisateur, de tournures mieux adaptées. Par exemple, si le système propose un mal plus faible, on lui indiquera que un moindre mal est plus approprié.

Système statistique de traduction automatique © RC2C, d’après H. Schwenk

DOSSIER
Des langues très vivantes

L'outillage informatique

Équiper les langues

L’informatique joue un rôle important dans la survie des langues.
par Chantal ENGUEHARD, Maître de conférences au Lina, Laboratoire d’informatique Nantes-Atlantique (CNRS/Université de Nantes). www.lina.univ-nantes.fr
Syllabaire amharique (Éthiopie). Extrait avec les codes Unicode correspondants. Chaque caractère représente une syllabe. © Ch. Enguehard

Actuellement, il y aurait environ 6 000 langues dans le monde, dont moins de 400 sont écrites. Ce second chiffre peut sembler faible, mais l'écriture est apparue il y a environ 7 000 ans, tandis que l'usage de la parole est vieux de plusieurs centaines de milliers d'années.

Les ordinateurs ont été utilisés dès leur invention pour effectuer des traitements automatiques sur les langues : saisie et partage de textes, aide à la correction orthographique... et des opérations plus élaborées comme la synthèse de la parole ou la traduction. On distingue ainsi les langues très bien dotées d'outils informatiques (dites langues Tau), celles qui sont moyennement dotées (langues Mu) et celles qui sont les moins équipées (langues Pi).

Certaines langues Pi sont parlées par des locuteurs très peu nombreux et n'ont pas été décrites par des linguistes ; il est peu probable qu’elles soient un jour informatisées. D’autres sont largement parlées et munies d'une écriture. En Afrique de l'ouest, c'est le cas du haoussa, maîtrisé par 50 à 60 millions de personnes, et du mandingue (plus de 30 millions de locuteurs).

Des contraintes techniques, historiques, économiques

Dans un ordinateur, les caractères d’écriture sont codés par des nombres. Par exemple, le code du a est 97 ; celui du z est 122. Apparus aux États-Unis, les ordinateurs sont bien adaptés à l’anglais, dont les 26 caractères alphabétiques sont définis dans la norme ASCII (American Standard Code for Information Interchange) encore d'actualité. Pour les langues utilisant d'autres caractères, comme les b et d à crosse du haoussa, ou des signes diacritiques (accents, cédilles, tildes, etc.), il a fallu inventer des astuces peu pratiques mais suffisantes jusqu'aux années 1990, avant la popularisation d'Internet. En 1992, le standard Unicode a enfin affecté un code à chacun des signes de tous les systèmes d'écriture. Pourtant, des difficultés subsistent dans les traitements logiciels des documents. Ainsi les francophones rencontrent-ils des désagréments avec leurs caractères accentués : ê devient ê ; é est transformé en é, etc. Sur un plan historique, les colonisations par des puissances européennes ont perturbé, voire balayé un certain nombre de systèmes d'écriture. En Afrique, seuls deux systèmes endogènes ont subsisté : les caractères tifinaghs et le syllabaire amharique.

Quant aux facteurs économiques, décrire une langue, constituer des ressources linguistiques puis transposer ces connaissances pour élaborer des matériels et des logiciels adaptés nécessitent des financements importants et une politique linguistique volontaire. Ainsi, il existe des claviers comportant les caractères les plus courants du français mais il n’y a pas de clavier dédié à une langue africaine.

Une survie liée à Internet

Les travaux visant à équiper les langues Pi sont rares, disparates et sporadiques. Les recherches s'orientent vers la constitution de ressources linguistiques (descriptions, dictionnaires, textes, etc.) et la définition de formats permettant de stocker ces ressources de façon cohérente et durable. La mise à disposition publique de ces données doit faciliter leur partage et leur réutilisation ainsi que la mise en oeuvre de travaux visant à les compléter.

Le projet Dilaf (Dictionnaires éditoriaux bilingues langue africaine-français), coordonné par le Lina et en partie financé par le Fonds francophone des inforoutes, s'inscrit dans cette direction. Il concerne des langues d'Afrique de l'Ouest : bambara, haoussa, kanouri, sonay-zarma, tamajaq. Il organise la conversion de dictionnaires bilingues en fichiers dont la structure respecte le format international LMF (Lexical Markup Framework) et qui seront ensuite publiés sur la Toile. Une fois converties, ces ressources pourront être utilisées par diverses applications comme les correcteurs orthographiques et par d’autres chercheurs, notamment des linguistes.

L'enjeu est important car la survie des langues paraît fortement conditionnée par la capacité de leurs locuteurs à les employer dans la communication écrite, et en particulier sur Internet.

En complément...

Sorosor, pour que vivent les langues du monde

The Unicode Consortium

• Histoire de l'écriture,Louis-Jean Calvet (Hachette, 1996)

African language Technology

• Vincent Berment, Méthodes pour informatiser des langues et des groupes de langues peu dotées. thèse, Université Joseph Fourier, 2004.

• Louis-Jean Calvet et Alain Calvet, Une durée de vie imprévisible, in La Recherche, avril 2009, pp. 31-35.

• Ramada Elghamis, Guide de lecture et d'écriture en tifinagh vocalisées, Association pour la promotion des tifinagh (APT), Adadez, Niger, 2003.

L'analyse de l'imprécis

Denis BÉCHET, Maître de conférences, chercheur au Lina (CNRS/Université de Nantes)

Le langage naturel (humain) est trop flexible et trop complexe pour être employé aujourd’hui comme moyen de communication entre l'Homme et la machine. C’est pourquoi les informaticiens utilisent des langages artificiels, comme les langages de programmation, très différents des langues humaines.

Les traitements automatisés du langage naturel (transcription de la parole, traduction, correction, etc.) s’appuient sur des représentations formelles des langues, et notamment des modèles de syntaxe devant tenir compte d’erreurs et de la flexibilité de la langue, comme dans Le gars il est pas nette où se trouvent une dislocation (sujet doublé), une absence de ponctuation, une négation incomplète, un adjectif polysémique et un accord erroné.

Avec ces modèles, les analyseurs syntaxiques actuels parviennent en général à décrire la structure des phrases, détecter les erreurs et proposer des corrections. Pour les améliorer, des recherches portent sur la mise en oeuvre de modèles de langue plus riches de règles et de formes particulières et d'analyseurs plus rapides et génériques (valables pour toute langue naturelle). Une autre voie de recherche vise à construire des lexiques très complets, mieux adaptés aux formes incorrectes ; elle recourt à des méthodes permettant aux logiciels d’apprendre automatiquement les règles de syntaxe et de proposer, parmi diverses analyses possibles d’une phrase, celle qui est la plus probable (cf. "Mieux traduire" ci contre).

Plusieurs catégories de modélisation existent. Certaines d’entre elles reposent sur la définition de « dépendances locales », des relations grammaticales entre les mots qui ne peuvent se croiser (cf. schéma). Dans notre laboratoire, nous avons développé des « grammaires catégorielles de dépendances », un type de modèle dans lequel de tels croisements peuvent être effectués sans que le temps d’analyse des phrases soit très supérieur à celui d’une méthode à dépendances uniquement locales. Il autorise ainsi des descriptions plus fines et mieux adaptées à des langues telles que le russe où l’ordre des mots est plus fluctuant qu’en français ou en allemand. Il permet d’améliorer, surtout pour ces langues peu rigides, des traitements complexes tels que le résumé, la traduction, la recherche simple (moteurs de recherche) ou complexe comme celle des systèmes « question-réponse » qui analysent une question et formulent une réponse à partir d’un ensemble de documents tel qu’un site web.

Arbre de dépendances © RC2C, d’après D. Béchet

Têtes chercheuses ©2007 | mentions légales | contactez nous | page d'accueil | Réalisation : Intelliance 2007