![]() |
Volume 6 - 2006 Fiche article : |
![]() |
![]()
A Texture-based Method for Document Segmentation and Classification
|
RÉSUMÉ. Dans cet article nous présentons un model hybride de segmentation et classification du contenu d'images de documents. Chaque image est segmentée en trois types de regions: graphiques, textes et espaces. L'image de chaque document est subdivisée en blocs; pour chacun de ces blocs, cinq caractéritiques sont extraites de leur Matrice de Co-occurrence de leur niveaux de gris. Les blocs sont ensuite regroupés en trois classes en utilisant l'algorithme du K-means. Les blocs connectés sont fusionnés for former un ensemble de regions homogènes. Des règles heuristiques sont ensuite utilisées pour donner un label à chacune des trois classes. Des experimentations ont été effectuées avec des images scannées de journaux et des images de la base de données documentaire MediaTeam . ABSTRACT. In this paper we present a hybrid approach to segment and classify contents of document images. A Document Image is segmented into three types of regions: Graphics, Text and Space. The image of a document is subdivided into blocks and for each block five GLCM (Grey Level Co-occurrence Matrix) features are extracted. Based on these features, blocks are then clustered into three groups using K-Means algorithm; connected blocks that belong to the same group are merged. The classification of groups is done using pre-learned heuristic rules. Experiments were conducted on scanned newspapers and images from MediaTeam Document Database . MOTS-CLÉS : Recherche d'Information, Analyse d'images de documents, Segmentation de Texture, Matrice de Co-occurrence, Regroupement K-means, Extraction de Charactéristiques. KEYWORDS: Information Retrieval, Document Image Analysis, Texture segmentation, Grey Level Co-occurrence Matrix(GLCM), K-Means Clustering, Feature extraction |
A R I M A arima-office@inria.fr