arima

Volume 2

Fiche article :

bouclier
spacer

 

Correction des erreurs orthographiques des systèmes de reconnaissance de l'écriture et de la parole arabe.

T. Sari* - M. Sellami *

*Laboratoire de Recherche en Informatique, Université Badji Mokhtar - Annaba - BP 12 - 23200 Sidi Amar Algérie
tou_sari@yahoo.fr
sellami@univ-annaba.org

RÉSUMÉ. Nous proposons dans cet article deux méthodes universelles de post-traitement pour la correction des mots arabes issus des systèmes de reconnaissance de textes et de parole arabes. Elles sont conçues à être adaptables. Ces approches corrigent les erreurs de type rejet et substitution. L'une d'elles est étroitement liée au dictionnaire elle est dite guidée par le lexique, l'autre, guidée par le contexte, est plus générale exploitant les information contextuelles. Les propriétés de la langue arabe sont très utiles en analyse morpho-lexicale et par conséquent elles sont fortement exploitées dans le développement de la deuxième méthode. Les erreurs de substitution sont réécrites sous formes de règles de production et utilisées par un système de production. Les extensions aux autres niveaux du traitement du langage sont envisagées en perspectives.

ABSTRACT. In this paper, we present two methods for correcting Arabic words generated by text and/or speech recognizers. These techniques operate as post-processors and they are conceived to be adaptable. They correct rejection and substitution word errors. The former one is very linked to the dictionary and is called 'lexicon driven', when the orther is very general exploiting contextual information and called 'context driven'. Arabic language properties are very useful in morpho-lexical analysis and so they were strongly exploited in the development of the second method. Substitution errors are rewritten in rules for being used by a rule based system. The extensions to the other levels of language analysis are considered in perspectives.

MOTS-CLÉS : OCR arabe, détection des erreurs, correction des mots, langue arabe, analyse morpho-lexicale, post-traitement, base de règles.

KEYWORDS: Arabic character recognition, error detection, word correction, arabic linguistic, probabilistic rule-based techniques, post-processing.

spacer
spacer
 présentation
    description

 accès aux articles
    online access

 nouvelles parutions
    recent articles

 comité de rédaction
    editorial board

 abonnements
    subscriptions

 soumission
    submission

 instructions auteurs
    author information

 contact

spacer

A R I M A  arima-office@inria.fr

  haut de page