Optimisation des requêtes dans des environnements parallèles : Application au Big Data

Poitou Charentes, Poitiers (86000) - Référence : optimisation_requetes_parallele
Mis en ligne le 13 octobre 2017 par Mickael Baron (+ d'offres)
Type de contrat :Stage
Métier :Chercheur en informatique
Type d'entreprise :Autre type d'entreprise (client final)
Localisation :Poitou Charentes, Poitiers (86000)
Salaire :6 600 €/an
Télétravail :Pas de télétravail
Compétences requises :C++, Hadoop, Java, Python

LIAS - ISAE / ENSMA

Site Web : www.lias-lab.fr

Envoyer une candidature

Poste à pourvoir

Le Big Data représente un défi non seulement pour le monde socio-économique mais aussi pour la recherche scientifique (Zicari et al.). En effet, comme il a été souligné dans plusieurs articles scientifiques (e.g., Wu et al.) et rapports stratégiques (e.g., Wang et al.), les applications informatiques modernes sont confrontées à de nouveaux problèmes qui sont liés essentiellement au stockage et à l’exploitation de données générées par les instruments d’observation et de simulation. La gestion de telles données représente un véritable goulot d’étranglement qui a pour effet de ralentir la valorisation des différentes données collectées non seulement dans le cadre de programmes scientifiques internationaux mais aussi par des entreprises, ces dernières s'appuyant de plus en plus sur l’analyse de données massives.

La recherche scientifique, à l’ère des Big Data, est devenue multidisciplinaire. En effet, il est nécessaire de combiner des techniques issues de plusieurs disciplines (informatique, physique, mathématique, …) afin de faire avancer la science. D’ailleurs, à titre d’exemple, le projet LSST ambitionne la construction du plus grand télescope au monde. Le défi ultime de LSST est de mettre à disposition des scientifiques une base de données commune à partir de laquelle seront conduites des recherches scientifiques qui s’intéressent, entre autres, à la recherche de petits objets dans le système solaire, à l’astrométrie de précision des régions extérieures à la Voie Lactée, à la surveillance des effets transitoires dans le ciel optique et à l’étude de l’Univers lointain. La communauté française utilisera ces données pour mener des études sur l’énergie noire responsable de l'accélération de l'expansion de l'univers, incomprise à ce jour. Le goulot d'étranglement lié à ces analyses repose en grande partie sur la méthodologie d'accès et de traitement des données retenues. LSST produira des images CDD de 3,2 Gigapixel toutes les 17 secondes (la nuit), pendant 10 ans. Il permettra à terme de générer 15 à 30 Téraoctets de données par nuit pour arriver à un volume d’environ 140 Pétaoctets d’images en fin de programme. Le catalogue de données est constitué de tables relationnelles ayant des tailles allant jusqu’à 5 Pétaoctets (Ivezić et al.). Par conséquent, de telles applications sont orientées par des questions telles que : comment stocker, organiser, indexer et distribuer des milliers de PetaOctets de données ? comment combiner l’indexation et la gestion de mémoire pour des bases de données extrêmement volumineuses, distribuées et multidimensionnelles ? comment évaluer des jointures entres des objets ayant plus de 100 milliards d’éléments, ce qui induit un problème de passage à l’échelle ? Quels algorithmes utilisés pour évaluer des requêtes et des fonctions d’agrégations sur ce genre de base de données ?

Dans le cadre de ce stage, nous travaillerons sur le problème de choix du meilleur plan d’exécution pour des requêtes issues du projet LSST. En effet, plusieurs plans d’exécution peuvent être considérés pour la même requête. Nous avons déjà prouvé que ce problème est NP Hard. Nous devons considérer deux sous problèmes : 1) le choix du modèle du coût qui prend en compte les environnements parallèles d’exécution et 2) le développement d’un algorithme efficace permettant d’explorer l’espace de recherche. D’ailleurs, les techniques proposées seront intégrées dans le système massivement parallèle QDAG qui a pour objectif de garantir à la fois le passage à l’échelle et les performances lors du traitement des Big Data.

Profil recherché

Master 2 Informatique

Description de la société

Le LIAS (Laboratoire d'Informatique et d'Automatique pour les Systèmes) représente 35 enseignants chercheurs issus des sections CNU 27, 61 et 63 dans les disciplines de l’Automatique, du Génie électrique et de l’Informatique. Il a été créé depuis le 1er janvier 2012, suite à la fusion des laboratoires du LAII (Laboratoire d'Automatique et d'Informatique Industrielle) et du LISI (Laboratoire d'Informatique Scientifique et Industrielle).

Bien qu'ancré dans la communauté STIC pour les aspects fondamentaux, le LIAS, par ses applications, est naturellement ouvert au secteur SPI. Que ce soit sur les nouveaux modes de propulsion, sur la gestion d’énergie, sur le traitement des eaux, sur la modélisation informatique des systèmes complexes ou sur l’optimisation des systèmes temps réel, les complémentarités disciplinaires de l’Automatique, du Génie Electrique et de l’Informatique doivent apporter une plus-value au traitement de ces applications qui relèvent toutes de l’ingénierie.
Contacter le responsable de la rubrique Emploi informatique et développeurs