Trois techniques relative à la découverte des données :
Le Data Discovery Analytics, c’est-à-dire la découverte des données par l’analyse met l’accent sur l’analyse visuelle des données plutôt que sur l’analyse des rapports statiques. Le but du Data Discovery par l’analyse est de permettre aux utilisateurs d’utiliser leur intuition afin de trouver des informations importantes et pertinentes issues des données. Ce processus consiste habituellement à poser des questions sur les données, apprécier visuellement le résultat, et reformuler la question afin d’affiner le résultat et ainsi préciser la réponse. Pour ce faire l’on utilisera des outils tels que Tableau, Qlik, Panorama, etc. afin de transformer les données brutes en provenance d’une ou de plusieurs sources vers des informations décisionnelles afin de résoudre des problèmes d’affaires.
Le Data Discovery Quality permet de réaliser la découverte des données par l’évaluation et la gestion de la qualité, il s’agit typiquement d’utiliser des outils tels que Trillium, DQ Global, etc. afin d’analyser les données réelles dans les bases de données avec l’objectif de travailler sur la recherche d’identificateurs uniques, supprimer les doublons, identifier les champs obligatoires manquants et les clés étrangères manquantes, etc.
Le Metadata Discovery permet quant à lui de fournir le contexte des données que l’on désire utiliser. Cela permet de répondre a des questions, du style, «Où sont conservé les données Client? »,« Quels tables sont utilisés par la fonction de paiements des clients? « , etc. afin d’être en mesure, entre autre, d’utiliser les autres solutions de découverte plus efficacement.
Les deux premiers usages offrent un aperçu et une compréhension relative aux données qui n’existait pas auparavant. De plus il est probable que vous utilisez le Data Discovery Quality avant de réaliser le chargement de vos données afin d’éviter à votre entreprise de prendre des décisions à partir de données inexactes. Cependant, utiliser ces outils avec des progiciels comme ceux de SAP, Oracle et Salesforce n’est tout simplement pas facilement réalisable en raison du nombre considérable de tables et de la complexité des modèles de données qui sous-tendent ces progiciels.
Donc, de la même manière qu’il n’est tout simplement pas pratique de faire le tour de tous les chemins dans une grande ville à la recherche d’un restaurant en particulier. Il n’est pas plus réaliste de profiler ou d’analyser un système comprenant des téraoctets ou des pétaoctets de données réparties sur autant de tables. Cela serait trop difficile et prendrait beaucoup trop de temps pour trouver ce que l’on cherche.
Il doit donc exister un moyen plus efficace de trouver ce que l’on as besoin et c’est ici que la découverte des métadonnées entre en jeu. L’utilisation des métadonnées permet d’accélérer radicalement le processus de localisation des tables dans un progiciel. La découverte des métadonnées permet à l’utilisateur de fournir le contexte de ces données et de répondre aux questions : «Où sont conservé les données Client?», «Quels tables sont utilisés par la fonction de paiements des clients? », etc. afin que les autres solutions de découverte puissent être plus efficaces aux mains des utilisateur et des applications importantes, complexes et personnalisées.
Donc un outil de Metadata Discovery permet de faire comme «Google Maps» et pour les progiciels ERP ont peut citer le logiciel SAFYR de Silwood