La reconnaissance automatique des dialectes arabes à l’écrit

Dr. Saadane Houda,Université de Grenoble,(France)
Pr. Fluhr Christian,GeolSemantics, (France)
Pr. Guidère Mathieu, Université de Toulouse , (France)

Résumé

La langue arabe est caractérisée par une situation de diglossie، il existe une pluralité de l’arabe، d’une part، l’arabe classique et l’arabe moderne standard qui a été le sujet  de nombreux travaux de recherche et d’autre part، l’arabe dialectal qui est une langue peu dotée et présente des variations d’un pays à un autre et voire d’une ville à une autre. Dans cet article، nous nous intéressons à la reconnaissance automatique des dialectes arabes à l’écrit. Dans un premiers temps، nous avons cherché à constituer un corpus de textes dialectaux rédigés en caractères latins. Ensuite، nous avons employé un outil de translittération pour les retranscrire en arabe. Enfin، nous avons extrait les traits morphosyntaxiques et sémantiques caractéristiques de deux principaux groupes de dialectes، à savoir le Maghreb et le Machrek.

Mots clés

Arabe standard، dialectes، langues peu dotées Maghreb، Machrek، transcription، corpus، translittération، traits linguistiques، TAL.