A R I M A - fiche article

Queries Processing Algorithms for Biodiversity Data in a Distributed Environment

(1) Département de mathématique-informatique
Université Cheikh Anta Diop
Dakar, SENEGAL
prenom.nom@ucad.edu.sn

(2) Sorbonne Universités, UPMC Univ Paris 06
LIP6 Laboratory
Paris, France
prenom.nom@lip6.fr

Télécharger l'article complet au format PDF.

RÉSUMÉ. Le portail du GBIF contient une description de la plupart des collections de données de la biodiversité mondiale. Il est confronté à des problèmes de disponibilité et d'expressivité limitée des requêtes liés à un nombre d'utilisateurs grandissant et manifestant sans cesse de nouveaux besoins. Pour faire face à ces problèmes, nous envisageons une solution qui passe à l'échelle avec un coût relativement faible. Dans cette perspective, nous proposons une architecture décentralisée et non intrusive pour interroger les données du GBIF, en nous appuyant sur une infrastructure de type Cloud. Nous définissons une stratégie de répartition dynamique des données et des algorithmes de traitement de requêtes, adaptés au contexte du GBIF. Nous démontrons la faisabilité et l'efficacité de notre approche par l'implémentation d'un prototype exécutant des requêtes jusqu'ici non supportées par le GBIF.

ABSTRACT. The GBIF portal contains a description of most of the global biodiversity data. It faces two problems, namely the data availability and a poor expressiveness of queries, mainly due to a growing number of users which keep expressing new needs. To tackle these problems, we envision a scalable and relatively low cost solution. With this in mind, we propose a non-invasive and decentralized architecture for processing GBIF queries over a cloud infrastructure. We define a dynamic strategy for data distribution and queries processing algorithms that fit the GBIF requirements. We demonstrate the feasibility and efficiency of our solution by a prototype implementation which allows for processing extra query types, up to now unsupported by the GBIF portal.

MOTS-CLÉS : Masses de données, réplication et distribution de données, nuage informatique, cloud computing, traitement des requêtes, GBIF.

KEYWORDS: Big data, data replication and distribution, cloud computing, query processing, GBIF

Fiche article :

Algorithmes de traitement de requêtes de biodiversité dans un environnement distribué