Sur une nouvelle génération d’indicateurs de qualité de données

Poitou Charentes, Poitiers (86000) - Référence : nouvelle_generation_indicateur_donnees

Mis en ligne le 13 octobre 2017 par Mickael Baron (+ d'offres)

LIAS - ISAE / ENSMA

Type de contrat :Stage

Métier :Chercheur en informatique

Type d'entreprise :Autre type d'entreprise (client final)

Localisation :Poitou Charentes, Poitiers (86000)

Salaire :6 600 €/an

Télétravail :Pas de télétravail

Compétences requises :Bash, Java, Javascript, PostgreSQL

Envoyer une candidature

Poste à pourvoir

L'existence d'anomalies et d'impuretés dans les données du monde réel est bien connue de nos jours. Dans [Kie 2016], leurs taux typiques sont estimés entre 10 à 30%. L'étude de la qualité des données reste donc un problème majeur car les données "impures ou impropres" (dirty data en anglais) peuvent conduire à des décisions incorrectes et à des analyses non fiables. La qualité des données [Fan 2012] désigne l’aptitude de l’ensemble des caractéristiques intrinsèques des données à satisfaire en vue de prise de décision ou de pilotage. La qualité est donc un concept complexe et multidimensionnel combinant plusieurs caractéristiques ou dimensions [Bert 2007].

L’avènement du Big data a exacerbé le problème lié à la qualité des données et a également ajouté de nouvelles dimensions. Une nouvelle vision du calcul d’indicateurs de qualité s’impose pour relever les défis posés par le Big data. La plupart des indicateurs de qualité proposés dans la littérature paraissent discutables d’un point de vue sémantique et sont de nature purement statistique. De plus, la façon dont ces mesures peuvent être utilisées en pratique et exploitées en lien avec des méthodes de nettoyage n’est pas claire.

L’objectif du stage est, dans un premier temps, de recenser les indicateurs de qualité qui existent dans la littérature. Puis, dans un second temps, revisiter certains de ces indicateurs en choisissant une à deux dimensions de la qualité. Ensuite, étudier les propriétés de ces indicateurs par rapport au processus de réparation. Des développements seront à réaliser pour implémenter les algorithmes de calcul de ces indicateurs et des expérimentations sur les performances et le coût seront menées également.

Bibliographie
- [Kie 2016] Cornelia Kiefer, Assessing the Quality of Unstructured Data: An Initial Overview. LWDA 2016: 62-73.
- [Fan 2012] W. Fan and F. Geerts. Foundations of Data Quality Management. Morgan & Claypool Publishers, 2012.
- [Bert 2007] Laure Berti, Mémoire d’Habilitation, Université Rennes 1, 2007.

Profil recherché

Master 2 Informatique

Description de la société

Le LIAS (Laboratoire d'Informatique et d'Automatique pour les Systèmes) représente 35 enseignants chercheurs issus des sections CNU 27, 61 et 63 dans les disciplines de l’Automatique, du Génie électrique et de l’Informatique. Il a été créé depuis le 1er janvier 2012, suite à la fusion des laboratoires du LAII (Laboratoire d'Automatique et d'Informatique Industrielle) et du LISI (Laboratoire d'Informatique Scientifique et Industrielle).

Bien qu'ancré dans la communauté STIC pour les aspects fondamentaux, le LIAS, par ses applications, est naturellement ouvert au secteur SPI. Que ce soit sur les nouveaux modes de propulsion, sur la gestion d’énergie, sur le traitement des eaux, sur la modélisation informatique des systèmes complexes ou sur l’optimisation des systèmes temps réel, les complémentarités disciplinaires de l’Automatique, du Génie Electrique et de l’Informatique doivent apporter une plus-value au traitement de ces applications qui relèvent toutes de l’ingénierie.

Site web : www.lias-lab.fr

Envoyer une candidature