Les recherches en traduction automatique ont débuté dès les
années 1950, en pleine guerre froide. La firme américaine IBM a
alors mis au point un système de traduction entre le russe et l'anglais
fondé sur l’analyse syntaxique et sémantique (du sens) des phrases.
Cette approche peut être très performante mais nécessite un énorme
effort de développement pour décrire chaque langue et, sur le long
terme, de mise à jour par des linguistes bilingues.
Grâce à l’augmentation de la puissance de calcul des ordinateurs, une
autre approche, dite statistique, s’est récemment généralisée. Son principe
repose sur la construction automatique (par un logiciel) de deux modèles :
une table de traduction, établie à partir de textes bilingues (des textes
et leurs traductions humaines qui proviennent souvent d’organisations
internationales : ONU, Commission européenne...), et un modèle de
langue cible construit à partir de textes monolingues (journaux, documents
publiés sur le web...). Le premier modèle est constitué de statistiques de
traductions de mots et d’expressions ; le second compile des statistiques
de variantes orthographiques ou syntaxiques de mots et d'expressions de
la langue cible (cf. schéma ci-dessous). Les performances d’un système combinant
ces modèles ne sont satisfaisantes que si le volume des textes traités se
compte en dizaines voire en centaines de millions de mots.
Les méthodes statistiques ont plusieurs avantages pratiques sur les méthodes analytiques : le développement plus rapide d'un système de traduction pour une nouvelle paire de langues ; moins de risques de produire des traductions incorrectes quand les textes à traduire comportent des erreurs, etc. C’est avec elles que de nombreux documents sur Internet et modes d'emploi de logiciels sont désormais traduits. Dans notre laboratoire, nous avons développé des systèmes très performants qui concernent en particulier l’anglais, l'arabe, le mandarin et le français. Nous avons amélioré le traitement statistique des ressources textuelles disponibles et mis au point des méthodes d'acquisition automatique de ressources supplémentaires. Nous travaillons aujourd’hui au développement de moyens de correction du système, comme l’intégration, via une saisie d’utilisateur, de tournures mieux adaptées. Par exemple, si le système propose un mal plus faible, on lui indiquera que un moindre mal est plus approprié.
Syllabaire amharique (Éthiopie). Extrait avec les codes Unicode correspondants. Chaque caractère représente une syllabe. © Ch. EnguehardActuellement, il y aurait environ 6 000
langues dans le monde, dont moins
de 400 sont écrites. Ce second chiffre peut
sembler faible, mais l'écriture est apparue il
y a environ 7 000 ans, tandis que l'usage de
la parole est vieux de plusieurs centaines de
milliers d'années.
Les ordinateurs ont été utilisés dès leur invention
pour effectuer des traitements automatiques
sur les langues : saisie et partage de textes,
aide à la correction orthographique... et des
opérations plus élaborées comme la synthèse
de la parole ou la traduction. On distingue
ainsi les langues très bien dotées d'outils
informatiques (dites langues Tau), celles qui sont
moyennement dotées (langues Mu) et celles qui
sont les moins équipées (langues Pi).
Certaines langues Pi sont parlées par des
locuteurs très peu nombreux et n'ont pas
été décrites par des linguistes ; il est peu
probable qu’elles soient un jour informatisées.
D’autres sont largement parlées et munies
d'une écriture. En Afrique de l'ouest, c'est le
cas du haoussa, maîtrisé par 50 à 60 millions
de personnes, et du mandingue (plus de 30
millions de locuteurs).
Des contraintes techniques, historiques, économiques
Dans un ordinateur, les caractères d’écriture sont codés par des nombres. Par exemple, le code du a est 97 ; celui du z est 122. Apparus aux États-Unis, les ordinateurs sont bien adaptés à l’anglais, dont les 26 caractères alphabétiques sont définis dans la norme ASCII (American Standard Code for Information Interchange) encore d'actualité. Pour les langues utilisant d'autres caractères, comme les b et d à crosse du haoussa, ou des signes diacritiques (accents, cédilles, tildes, etc.), il a fallu inventer des astuces peu pratiques mais suffisantes jusqu'aux années 1990, avant la popularisation d'Internet. En 1992, le standard Unicode a enfin affecté un code à chacun des signes de tous les systèmes d'écriture. Pourtant, des difficultés subsistent dans les traitements logiciels des documents. Ainsi les francophones rencontrent-ils des désagréments avec leurs caractères accentués : ê devient ê ; é est transformé en é, etc. Sur un plan historique, les colonisations par des puissances européennes ont perturbé, voire balayé un certain nombre de systèmes d'écriture. En Afrique, seuls deux systèmes endogènes ont subsisté : les caractères tifinaghs et le syllabaire amharique.
Quant aux facteurs économiques, décrire une
langue, constituer des ressources linguistiques
puis transposer ces connaissances pour
élaborer des matériels et des logiciels adaptés
nécessitent des financements importants et
une politique linguistique volontaire. Ainsi,
il existe des claviers comportant les caractères
les plus courants du français mais il n’y a pas
de clavier dédié à une langue africaine.
Une survie liée à Internet
Les travaux visant à équiper les langues Pi sont
rares, disparates et sporadiques. Les recherches
s'orientent vers la constitution de ressources
linguistiques (descriptions, dictionnaires, textes,
etc.) et la définition de formats permettant de
stocker ces ressources de façon cohérente et
durable. La mise à disposition publique de
ces données doit faciliter leur partage et leur
réutilisation ainsi que la mise en oeuvre de
travaux visant à les compléter.
Le projet Dilaf (Dictionnaires éditoriaux
bilingues langue africaine-français), coordonné
par le Lina et en partie financé par le Fonds
francophone des inforoutes, s'inscrit dans cette
direction. Il concerne des langues d'Afrique
de l'Ouest : bambara, haoussa, kanouri,
sonay-zarma, tamajaq. Il organise la conversion
de dictionnaires bilingues en fichiers dont
la structure respecte le format international
LMF (Lexical Markup Framework) et qui seront
ensuite publiés sur la Toile. Une fois converties,
ces ressources pourront être utilisées par
diverses applications comme les correcteurs
orthographiques et par d’autres chercheurs,
notamment des linguistes.
L'enjeu est important car la survie des langues paraît fortement conditionnée par la capacité de leurs locuteurs à les employer dans la communication écrite, et en particulier sur Internet.
• Sorosor, pour que vivent les langues du monde
• Histoire de l'écriture,Louis-Jean Calvet (Hachette, 1996)
• Vincent Berment, Méthodes pour informatiser des langues et des groupes de langues peu dotées. thèse, Université Joseph Fourier, 2004.
• Louis-Jean Calvet et Alain Calvet, Une durée de vie imprévisible, in La Recherche, avril 2009, pp. 31-35.
• Ramada Elghamis, Guide de lecture et d'écriture en tifinagh vocalisées, Association pour la promotion des tifinagh (APT), Adadez, Niger, 2003.
Le langage naturel (humain) est trop flexible
et trop complexe pour être employé
aujourd’hui comme moyen de communication
entre l'Homme et la machine. C’est pourquoi les
informaticiens utilisent des langages artificiels,
comme les langages de programmation, très
différents des langues humaines.
Les traitements automatisés du langage
naturel (transcription de la parole, traduction,
correction, etc.) s’appuient sur des
représentations formelles des langues, et
notamment des modèles de syntaxe devant
tenir compte d’erreurs et de la flexibilité de la
langue, comme dans Le gars il est pas nette où se trouvent une dislocation (sujet doublé),
une absence de ponctuation, une négation
incomplète, un adjectif polysémique et un
accord erroné.
Avec ces modèles, les analyseurs syntaxiques
actuels parviennent en général à décrire la
structure des phrases, détecter les erreurs et
proposer des corrections. Pour les améliorer,
des recherches portent sur la mise en oeuvre
de modèles de langue plus riches de règles et
de formes particulières et d'analyseurs plus
rapides et génériques (valables pour toute
langue naturelle). Une autre voie de recherche
vise à construire des lexiques très complets,
mieux adaptés aux formes incorrectes ; elle
recourt à des méthodes permettant aux
logiciels d’apprendre automatiquement les
règles de syntaxe et de proposer, parmi diverses
analyses possibles d’une phrase, celle qui est la
plus probable (cf. "Mieux traduire" ci contre).
Plusieurs catégories de modélisation existent. Certaines d’entre elles reposent sur la définition de « dépendances locales », des relations grammaticales entre les mots qui ne peuvent se croiser (cf. schéma). Dans notre laboratoire, nous avons développé des « grammaires catégorielles de dépendances », un type de modèle dans lequel de tels croisements peuvent être effectués sans que le temps d’analyse des phrases soit très supérieur à celui d’une méthode à dépendances uniquement locales. Il autorise ainsi des descriptions plus fines et mieux adaptées à des langues telles que le russe où l’ordre des mots est plus fluctuant qu’en français ou en allemand. Il permet d’améliorer, surtout pour ces langues peu rigides, des traitements complexes tels que le résumé, la traduction, la recherche simple (moteurs de recherche) ou complexe comme celle des systèmes « question-réponse » qui analysent une question et formulent une réponse à partir d’un ensemble de documents tel qu’un site web.
Têtes chercheuses ©2007 |
mentions légales |
contactez nous |
page d'accueil |
Réalisation : Intelliance 2007