RÉSUMÉ.
Dans le cadre de cet article, nous nous intéressons à la classification supervisée de
documents structurés de type XML. Nous présentons tout d’abord un modèle génératif
arborescent jumelé, basé sur le formalisme des réseaux bayésiens, afin de modéliser
les documents structurés qui permet de prendre en compte simultanément l’information
de contenu et l’information de structure. Ensuite nous appliquons une variante du
noyau de Fisher, basée sur la pondération des composantes du vecteur de Fisher pour obtenir
un modèle discriminant. Enfin, nous testons les deux modèles avec et sans pondération sur
un corpus de documents XML en utilisant les méthodes CBS et SVM.
ABSTRACT.
In this paper, we are presenting a learning model for XML document classification based
on Bayesian networks. Then, we are proposing a model which simplifies the arborescent
representation of the XML document that we have, named coupled model and we will see
that this approach improves the response time and keeps the same performances of the
classification. Then, we will study an extension of this generative model to the
discriminating model thanks to the formalism of the Fisher’s kernel. At last, we
have applied a ponderation of the structure components of the Fisher’s vector.
We finish by presenting the obtained results on the XML collection by using the CBS
and SVM methods.
MOTS-CLÉS :
Documents XML, réseaux bayésiens, noyau de Fisher, classification, modèles discriminants.
KEYWORDS:
XML documents, Bayesian networks, Fisher’s kernel, classification, discriminating models.
|