RÉSUMÉ.
Le portail du GBIF contient une description de la plupart des collections de données de
la biodiversité mondiale. Il est confronté à des problèmes de disponibilité et d'expressivité limitée
des requêtes liés à un nombre d'utilisateurs grandissant et manifestant sans cesse de nouveaux
besoins. Pour faire face à ces problèmes, nous envisageons une solution qui passe à l'échelle avec
un coût relativement faible. Dans cette perspective, nous proposons une architecture décentralisée et
non intrusive pour interroger les données du GBIF, en nous appuyant sur une infrastructure de type
Cloud. Nous définissons une stratégie de répartition dynamique des données et des algorithmes de
traitement de requêtes, adaptés au contexte du GBIF. Nous démontrons la faisabilité et l'efficacité de
notre approche par l'implémentation d'un prototype exécutant des requêtes jusqu'ici non supportées
par le GBIF.
ABSTRACT.
The GBIF portal contains a description of most of the global biodiversity data. It faces two
problems, namely the data availability and a poor expressiveness of queries, mainly due to a growing
number of users which keep expressing new needs. To tackle these problems, we envision a scalable
and relatively low cost solution. With this in mind, we propose a non-invasive and decentralized
architecture for processing GBIF queries over a cloud infrastructure. We define a dynamic strategy for
data distribution and queries processing algorithms that fit the GBIF requirements. We demonstrate
the feasibility and efficiency of our solution by a prototype implementation which allows for processing
extra query types, up to now unsupported by the GBIF portal.
MOTS-CLÉS :
Masses de données, réplication et distribution de données, nuage informatique, cloud
computing, traitement des requêtes, GBIF.
KEYWORDS:
Big data, data replication and distribution, cloud computing, query processing, GBIF
|