RÉSUMÉ.
La quantité des données produites par de nombreux domaines augmente
constamment et rend leur traitement de plus en plus difficile à gérer.
Parmi ces domaines nous nous intéressons à la biodiversité pour
laquelle le GBIF (Global Biodiversity Information Facility) vise à fédérer
et partager les données de biodiversité produites par de nombreux fournisseurs
à l'échelle mondiale. Aujourd'hui, avec un nombre croissant d'utilisateurs
caractérisés par un comportement versatile et une fréquence
d'accès aux données très aléatoire, les solutions actuelles
n'ont pas été conçues pour s'adapter dynamiquement à ce type de
situation. Par ailleurs, avec un nombre croissant de fournisseurs de
données et d'utilisateurs qui interrogent sa base, le GBIF est confronté
à un problème d'efficacité difficile à résoudre.
Nous visons, dans cet article, à résoudre les problèmes de performances
du GBIF. Dans cette perspective, nous proposons une approche d'optimisation de
requête d'analyse de données de biodiversité qui s'adapte dynamiquement
au contexte des environnements répartis à large échelle pour garantir
la disponibilité des données. L'implémentation de notre solution et
les résultats des expériences sont satisfaisants pour la garantie de
performance et du passage à l'échelle.
ABSTRACT.
The amount of data produced by many areas is constantly increasing and makes treatment
more difficult to manage. One of those areas is the biodiversity field, which the GBIF (Global
Biodiversity Information Facility) aims to federate and share data produced by many worldwide suppliers.
Actually, with a growing number of users characterized by a versatile behavior and a high
frequency and randomly data access, existing solutions are not well suited to face such challenge.
Moreover, the GBIF system is not able to deal efficiently with the growing number of data providers
and users. We aim in this paper to solve the performances drawback of the GBIF. In this respect,
we propose a context-aware solution that dynamically adapts the query processing based on the
data distribution and the access pattern. The implementation of our solution and the results of the
experiments show the effectiveness of our solution in terms of scalability and availability.
MOTS-CLÉS :
masses de données, réplication et distribution dynamiques,
large échelle, optimisation de requêtes, biodiversité.
KEYWORDS:
big data, dynamic replication and distribution, large escale, query optimization,
biodiversity.
|