IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Le poste correspondant à cette offre d'emploi a été pourvu.

Extraction automatique de schémas à partir d'un Data Lake

Ile de France, Puteaux (78100)
Originellement mis en ligne le 1er mars 2023 - Remontée le 7 mai 2023 par Marie Calvert (+ d'offres)
Trimane
Type de contrat :Stage
Métier :Développeur informatique
Niveau d'étude requis :Aucun
Expérience :Débutant accepté
Type d'entreprise :Autre type d'entreprise (client final)
Localisation :Ile de France, Puteaux (78100)
Télétravail :Pas de télétravail
Envoyer une candidature

Poste à pourvoir

Les systèmes Business Intelligence & Analytics permettent de collecter les données des sources de données, principalement les données opérationnelles de l'entreprise stockées dans des bases de données relationnelles [1]. La collecte de ces données se fait par le biais de processus d'extraction, transformation et chargement appelés processus ETL [2]. Ces données sont par la suite chargées dans l'entrepôt de données puis vers les magasins afin de permettre des analyses OLAP (Online Analytical Processing). Avec l'arrivé du Big Data, les données provenant de diverses sources sont stockées au format brut ce qui constitue un réservoir de données « Data Lake ». Ce Data Lake issu de la réunion de plusieurs sources de données existantes ou en cours d'élaboration sera la base de nos travaux. Les données de ce Data Lake doivent être sélectionnées, nettoyées, agrégées et réorganisées dans des entrepôts de données massives pour être analysées [3].

Les technologies OLAP ont été largement utilisées pour l'analyse des données structurées de l'entreprise afin d'assister la prise de décision. Aujourd'hui, dans le contexte NoSQL [4], il est nécessaire de pouvoir aussi appliquer des analyses OLAP sur des Data Lake, afin de permettre à des utilisateurs non informaticiens (décideurs) d'en extraire des informations ayant de la valeur et de prendre de meilleures décisions.

Sujet du stage

Dans ce stage, nous souhaitons utiliser, des techniques de clustering en grande dimension partant d'un Data Lake NoSQL. Le but est d'extraire de gros volume de données très variées avec non seulement des structures variées mais aussi des métiers différents. L'objectif de ce stage est de :

1. proposer une étude de l'état de l'art autour des approches, des algorithmes et des techniques d'extraction de schémas NoSQL [5, 6, 7, 8, 9, 11].

2. étudier les approches de gestion de qualité, ainsi que les modes de nettoyage des données et des prétraitements des objets extraits à partir de Data Lake, ou de sources de données non structurées.

3. proposer une nouvelle approche qui permet d'extraire, de manière automatique le schéma à partir du Data Lake orientées documents. Ce schéma devrait faciliter les analyses OLAP et les analyses prédictives. Cette approche se base sur des techniques de l'intelligence artificielle tout en considérant la sémantique des données.

4. implémenter et valider l'approche proposée.

Profil recherché

- Etudiant(e) de Master 2 ou de dernière année d'école d'ingénieur sur un cursus de mathématique ou informatique,

- Bon niveau de communication scientifique à l'écrit et oral, notamment en anglais,

- Un très bon cursus universitaire et une forte motivation pour la recherche afin de permettre une éventuelle poursuite en thèse à l'issue du stage dans le cadre d'une bourse CIFRE.

Compétences attendues :

L'étudiant retenu devra présenter de bonnes compétences dans :

- Les bases de données,

- La modélisation des données,

- L'analyse des données,

- L'algorithmique,

- La connaissance bases de données NoSQL, les techniques de clustering et l'intelligence artificielle seraient appréciées.

Description de la société

Fondée en 2005, TRIMANE est un cabinet de conseil et une société de service spécialisée en Data Intelligence (BI et Big Data), notre mission est de créer de la valeur à partir des données disponibles dans les entreprises, en s'appuyant sur des approches algorithmiques innovantes, des méthodologies spécifiques et de nombreuses technologies.

En tant que spécialiste Data, nous sommes reconnus pour le très haut niveau d'expertise de nos consultants et de notre retour d'expérience en la matière.

Nous accompagnons nos clients du secteur public ou privé sur des prestations de Conseil, MOA et MOE, autour du traitement et l'analyse des data, quel que soit l'environnement technique (BI, Big Data, Cloud, Machine Learning, Deep Learning, NLP, etc.) ou sur les aspects méthodologiques (Gestion de projet, Agile, DataOps, stratégie Data Gouvernance, organisation Data Driven...).

Société à taille humaine, nous recrutons, avant tout, des personnes passionnées désirant intégrer une vraie communauté et construire ensemble une relation durable et de confiance.

Rejoindre Trimane c'est :

-> Un triple suivi de carrière avec vos référents technique, RH et commercial,

-> Un accès en illimité à nos plateformes de formations, des certifications, des formations en interne autour en BI, Big Data, Machine Learning, Blockchain, développement web et logiciels software,

-> Des ateliers de veilles technologiques sur des sujets innovants,

-> Un CSE avec des afterworks, des escapes games, et autres activités d'équipe,

-> Participer à l'aventure The Blockchain Group, un groupe d'entrepreneurs, composé de différentes entités proposant des offres de services complémentaires (digital, blockchain, Data...) et des projets communs.

Envoyer une candidature