A R I M A - fiche article

*Département de mathématique-informatique
Université Cheikh Anta Diop, Dakar, Sénégal
prenom.nom@ucad.edu.sn

**Sorbonne Universités, UPMC Univ. Paris 06
LIP6 Laboratory Paris, France
prenom.nom@lip6.fr

Télécharger l'article complet au format PDF.

RÉSUMÉ. La quantité des données produites par de nombreux domaines augmente constamment et rend leur traitement de plus en plus difficile à gérer. Parmi ces domaines nous nous intéressons à la biodiversité pour laquelle le GBIF (Global Biodiversity Information Facility) vise à fédérer et partager les données de biodiversité produites par de nombreux fournisseurs à l'échelle mondiale. Aujourd'hui, avec un nombre croissant d'utilisateurs caractérisés par un comportement versatile et une fréquence d'accès aux données très aléatoire, les solutions actuelles n'ont pas été conçues pour s'adapter dynamiquement à ce type de situation. Par ailleurs, avec un nombre croissant de fournisseurs de données et d'utilisateurs qui interrogent sa base, le GBIF est confronté à un problème d'efficacité difficile à résoudre. Nous visons, dans cet article, à résoudre les problèmes de performances du GBIF. Dans cette perspective, nous proposons une approche d'optimisation de requête d'analyse de données de biodiversité qui s'adapte dynamiquement au contexte des environnements répartis à large échelle pour garantir la disponibilité des données. L'implémentation de notre solution et les résultats des expériences sont satisfaisants pour la garantie de performance et du passage à l'échelle.

ABSTRACT. The amount of data produced by many areas is constantly increasing and makes treatment more difficult to manage. One of those areas is the biodiversity field, which the GBIF (Global Biodiversity Information Facility) aims to federate and share data produced by many worldwide suppliers. Actually, with a growing number of users characterized by a versatile behavior and a high frequency and randomly data access, existing solutions are not well suited to face such challenge. Moreover, the GBIF system is not able to deal efficiently with the growing number of data providers and users. We aim in this paper to solve the performances drawback of the GBIF. In this respect, we propose a context-aware solution that dynamically adapts the query processing based on the data distribution and the access pattern. The implementation of our solution and the results of the experiments show the effectiveness of our solution in terms of scalability and availability.

MOTS-CLÉS : masses de données, réplication et distribution dynamiques, large échelle, optimisation de requêtes, biodiversité.

KEYWORDS: big data, dynamic replication and distribution, large escale, query optimization, biodiversity.

Fiche article :

Optimisation de requêtes dynamiques pour l'analyse de la biodiversité