A R I M A - fiche article

RÉSUMÉ. Dans cet article nous présentons un model hybride de segmentation et classification du contenu d'images de documents. Chaque image est segmentée en trois types de regions: graphiques, textes et espaces. L'image de chaque document est subdivisée en blocs; pour chacun de ces blocs, cinq caractéritiques sont extraites de leur Matrice de Co-occurrence de leur niveaux de gris. Les blocs sont ensuite regroupés en trois classes en utilisant l'algorithme du K-means. Les blocs connectés sont fusionnés for former un ensemble de regions homogènes. Des règles heuristiques sont ensuite utilisées pour donner un label à chacune des trois classes. Des experimentations ont été effectuées avec des images scannées de journaux et des images de la base de données documentaire MediaTeam

ABSTRACT. In this paper we present a hybrid approach to segment and classify contents of document images. A Document Image is segmented into three types of regions: Graphics, Text and Space. The image of a document is subdivided into blocks and for each block five GLCM (Grey Level Co-occurrence Matrix) features are extracted. Based on these features, blocks are then clustered into three groups using K-Means algorithm; connected blocks that belong to the same group are merged. The classification of groups is done using pre-learned heuristic rules. Experiments were conducted on scanned newspapers and images from MediaTeam Document Database

MOTS-CLÉS : Recherche d'Information, Analyse d'images de documents, Segmentation de Texture, Matrice de Co-occurrence, Regroupement K-means, Extraction de Charactéristiques.

KEYWORDS: Information Retrieval, Document Image Analysis, Texture segmentation, Grey Level Co-occurrence Matrix(GLCM), K-Means Clustering, Feature extraction

Fiche article :

A Texture-based Method for Document Segmentation and Classification