arima

Volume 6 - 2006

Fiche article :

bouclier
spacer

 

A Comparative study of sample selection methods for classification


Patricia E.N. Lutu
Department of Informatics
University of Pretoria, South Africa
Patricia.Lutu@up.ac.za

Andries P. Engelbrecht
Department of Computer Science
University of Pretoria, South Africa
engel@cs.up.ac.za

 

RÉSUMÉ. L’échantillonnage pour le minage de large ensemble de données est important pour au moins deux raisons. Le traitement de grande quantité de données a pour résultat une augmentation de la complexité informatique. Le coût de cette complexité additionnelle pourrait être non justifiable. D’autre part, l’utilisation de petits échantillons a pour résultat des calculs rapides et efficaces pour les algorithmes de minage de données. Les méthodes de statistique pour obtenir des échantillons d’ensemble de donnés satisfaisants pour les problèmes de classification sont discutées dans ce papier. Des résultats sont présentés pour une étude empirique basée sur l’utilisation d’échantillonnage aléatoire séquentiel et l’évaluation d’échantillon utilisant le test d’hypothèse univariée et une mesure theoretique de l’information. Des comparaisons sont faites entre des estimations théoriques et empiriques

.

ABSTRACT. Sampling of large datasets for data mining is important for at least two reasons. The processing of large amounts of data results in increased computational complexity. The cost of this additional complexity may not be justifiable. On the other hand, the use of small samples results in fast and efficient computation for data mining algorithms. Statistical methods for obtaining sufficient samples from datasets for classification problems are discussed in this paper. Results are presented for an empirical study based on the use of sequential random sampling and sample evaluation using univariate hypothesis testing and an information theoretic measure. Comparisons are made between theoretical and empirical estimates.

MOTS-CLÉS : échantillonnage d’ensemble de données, analyse de données, apprentissage de machine, classification, information measures

KEYWORDS: dataset sampling, data analysis, machine learning, classification, information measures

spacer
spacer
 présentation
    description

 accès aux articles
    online access

 nouvelles parutions
    recent articles

 comité de rédaction
    editorial board

 abonnements
    subscriptions

 soumission
    submission

 instructions auteurs
    author information

 contact

spacer

A R I M A  arima-office@inria.fr

  haut de page