arima

Volume 6 - 2006

Fiche article :

bouclier
spacer

 

A Texture-based Method for Document Segmentation and Classification


Ming-Wei Lin, Jules-Raymond Tapamo, Baird Ndovie ,
School of Computer Science, University of KwaZulu-Natal, Durban 4041, South Africa
linm@ukzn.ac.za, tapamoj@ukzn.ac.za, ndovieb@ukzn.ac.za,

 

RÉSUMÉ. Dans cet article nous présentons un model hybride de segmentation et classification du contenu d'images de documents. Chaque image  est segmentée en trois types de regions: graphiques, textes et espaces. L'image de chaque document est subdivisée en blocs; pour chacun de ces  blocs, cinq caractéritiques  sont extraites de leur Matrice de Co-occurrence de leur  niveaux de gris. Les blocs sont ensuite regroupés en trois classes en utilisant l'algorithme du K-means. Les blocs connectés sont fusionnés for former un ensemble de regions homogènes. Des règles heuristiques sont ensuite utilisées pour donner un label à chacune des trois classes.  Des experimentations ont été effectuées avec  des images scannées de journaux et des images de la base de données  documentaire MediaTeam

.

ABSTRACT. In this paper we present a hybrid approach to segment and classify contents of  document images. A Document Image is segmented into three types of regions: Graphics, Text and Space. The image of a document is subdivided into blocks and for each block five GLCM (Grey Level Co-occurrence Matrix) features are extracted. Based on these features, blocks are then clustered into three groups using K-Means algorithm; connected blocks that belong to the same group are merged. The classification of  groups is done using pre-learned heuristic rules. Experiments were conducted on scanned newspapers and images from MediaTeam Document Database

.

MOTS-CLÉS : Recherche d'Information, Analyse d'images de documents, Segmentation de Texture, Matrice de Co-occurrence, Regroupement K-means, Extraction de Charactéristiques.

KEYWORDS: Information Retrieval, Document Image Analysis, Texture segmentation, Grey Level Co-occurrence Matrix(GLCM), K-Means Clustering, Feature extraction

spacer
spacer
 présentation
    description

 accès aux articles
    online access

 nouvelles parutions
    recent articles

 comité de rédaction
    editorial board

 abonnements
    subscriptions

 soumission
    submission

 instructions auteurs
    author information

 contact

spacer

A R I M A  arima-office@inria.fr

  haut de page