Une approche hybride pour la traduction automatique anglais-arabe basée sur la recherche d’information interlingue

DR.NASREDINE SEMMAR
LABORATOIRE VISION ET INGENIERIE DES CONTENUS
(FRANCE)

Résumé

Cet article présente une approche hybride de traduction automatique basée la recherche d’information interlingue et ne nécessitant que la disponibilité d’un corpus de textes en langue cible pour la construction du modèle de langage. Cette approche consiste، d’une part، à indexer en une base de données textuelle un large corpus en langue cible en utilisant un moteur de recherche interlingue، et d’autre part، à considérer la phrase à traduire comme une requête à cette base. Les informations linguistiques (lemme، catégorie grammaticale، genre، nombre، relation de dépendance syntaxique، etc.) des mots des phrases candidates fournies par le moteur de recherche sont combinées avec le modèle statistique de la langue cible en vue de produire la meilleure traduction. Nous avons évalué cette approche de traduction et comparé ses résultats à ceux du système de traduction statistique MOSES en utilisant les outils، les données et le protocole de la campagne MEDAR. Les résultats obtenus montrent que le score BLEU de notre approche dépasse significativement celui du système MOSES.

MOTS-CLES : Recherche d’information interlingue، traduction automatique، modèle de traduction، modèle de langue، automate à états finis، champs conditionnels aléatoires.

Abstract   

This paper presents a hybrid approach for machine translation using cross-language information retrieval and needs only a mono-lingual corpus in the target language in order to build the language model. This approach consists، on the one hand، in indexing a database of sentences in the target language، and on the other hand، in considering each sentence to translate as a “query” to that database. Linguistic information such as lemmas، part-of-speech and syntactic dependency relations corresponding to the words of the sentences returned by the cross-language search engine are combined with a statistical model of the target language to produce a correct translation. This approach has been evaluated and compared to the statistical machine translation system MOSES using the tools، the data and the protocol of the MEDAR campaign. The obtained results show that our translation approach outperforms significantly MOSES system in terms of BLEU score.

KEYWORDS: Cross-language information retrieval، machine translation، translation model، language model، finite-state machine، conditional random fields.