A R I M A - fiche article

RÉSUMÉ. Dans le cadre de cet article, nous nous intéressons à la classification supervisée de documents structurés de type XML. Nous présentons tout d’abord un modèle génératif arborescent jumelé, basé sur le formalisme des réseaux bayésiens, afin de modéliser les documents structurés qui permet de prendre en compte simultanément l’information de contenu et l’information de structure. Ensuite nous appliquons une variante du noyau de Fisher, basée sur la pondération des composantes du vecteur de Fisher pour obtenir un modèle discriminant. Enfin, nous testons les deux modèles avec et sans pondération sur un corpus de documents XML en utilisant les méthodes CBS et SVM.

ABSTRACT. In this paper, we are presenting a learning model for XML document classification based on Bayesian networks. Then, we are proposing a model which simplifies the arborescent representation of the XML document that we have, named coupled model and we will see that this approach improves the response time and keeps the same performances of the classification. Then, we will study an extension of this generative model to the discriminating model thanks to the formalism of the Fisher’s kernel. At last, we have applied a ponderation of the structure components of the Fisher’s vector. We finish by presenting the obtained results on the XML collection by using the CBS and SVM methods.

MOTS-CLÉS : Documents XML, réseaux bayésiens, noyau de Fisher, classification, modèles discriminants.

KEYWORDS: XML documents, Bayesian networks, Fisher’s kernel, classification, discriminating models.

Fiche article :

Réseaux bayésiens jumelés et noyau de Fisher pondéré pour la classification de documents XML