arima

Volume 17 - 2014

Fiche article :

bouclier
spacer

 

Réseaux bayésiens jumelés et noyau de Fisher pondéré pour la classification de documents XML

A learning model for XML document classification based on Bayesian networks

Ait Ali Yahia Yassine* - Amrouche Karima*

*Ecole Nationale Supérieure d’Informatique
BP 68M Oued Smar Oued Smart 16270 Alger ALGERIE
y_ait_ali_yahia@esi.dz
k_amrouche@esi.dz

RÉSUMÉ. Dans le cadre de cet article, nous nous intéressons à la classification supervisée de documents structurés de type XML. Nous présentons tout d’abord un modèle génératif arborescent jumelé, basé sur le formalisme des réseaux bayésiens, afin de modéliser les documents structurés qui permet de prendre en compte simultanément l’information de contenu et l’information de structure. Ensuite nous appliquons une variante du noyau de Fisher, basée sur la pondération des composantes du vecteur de Fisher pour obtenir un modèle discriminant. Enfin, nous testons les deux modèles avec et sans pondération sur un corpus de documents XML en utilisant les méthodes CBS et SVM.

ABSTRACT. In this paper, we are presenting a learning model for XML document classification based on Bayesian networks. Then, we are proposing a model which simplifies the arborescent representation of the XML document that we have, named coupled model and we will see that this approach improves the response time and keeps the same performances of the classification. Then, we will study an extension of this generative model to the discriminating model thanks to the formalism of the Fisher’s kernel. At last, we have applied a ponderation of the structure components of the Fisher’s vector. We finish by presenting the obtained results on the XML collection by using the CBS and SVM methods.

MOTS-CLÉS : Documents XML, réseaux bayésiens, noyau de Fisher, classification, modèles discriminants.

KEYWORDS: XML documents, Bayesian networks, Fisher’s kernel, classification, discriminating models.

spacer
spacer
 présentation
    description

 accès aux articles
    online access

 nouvelles parutions
    recent articles

 comité de rédaction
    editorial board

 abonnements
    subscriptions

 soumission
    submission

 instructions auteurs
    author information



spacer

A R I M A  text

  haut de page