Les meilleures pratiques autour du Big Data

Sommaire

Le  » Big Data  » n’est pas seulement un mot à la mode ; il s’agit en fait d’une description précise des défis auxquels les organisations font face aujourd’hui en matière de données. Considérez ces statistiques de Forbes :

  • Entre 2015 et 2020, l’univers numérique total des données sera multiplié par 10.
  • D’ici 2020, il y aura 6,1 milliards d’utilisateurs de téléphones mobiles, utilisant des appareils qui collectent une grande quantité de données chaque jour.
  • Moins de 0,5 % de toutes les données sont analysées et utilisées.
  • De toute évidence, le volume et la variété des données disponibles croissent à une vitesse étonnante, ce qui explique en partie cette dernière statistique surprenante : les organisations obtiennent un aperçu de moins de .5 % de ces données.

Qu’est-ce que la transformation de données ?

Pour commencer à donner un sens à leurs données, les entreprises doivent maîtriser le métier big data. La transformation de données, également appelée ETL (Extract/Transform/Load), est le processus de conversion d’une source de données brutes en une forme nettoyée, validée et prête à l’emploi. Il peut transformer les données en informations opportunes qui ont un impact positif sur les entreprises. Les données transformées de façon appropriée sont accessibles, cohérentes, sécurisées et considérées comme une source fiable par la communauté d’utilisateurs visée. La transformation des données est une étape importante dans le processus complet d’intégration des données Web.

Avec le volume sans cesse croissant de données disponibles pour et sur votre entreprise, vous avez une excellente occasion de les utiliser pour trouver de la valeur commerciale. Mais l’exploitation de ces données exige une stratégie consciencieuse de transformation des données qui oriente les données en fonction des besoins des utilisateurs professionnels.

Voici 7 bonnes pratiques de transformation de données :

Commencez par la Fin en Tête : Concevoir la cible

Face à un océan de données à traiter, il est tentant de sauter dans les détails de la transformation des données. Cependant, avant de transformer les données en insights, vous devez engager les utilisateurs métier à comprendre les processus métier que vous essayez d’analyser et à concevoir le format cible.

Ce processus, connu sous le nom de « modélisation dimensionnelle », aboutit à deux types de tables cibles pour les données transformées :

  • Tableaux de dimensions : Ceux-ci fournissent le contexte « Qui, quoi, où, quand, pourquoi et comment » pour les données. Ralph Kimball, gourou de l’entreposage de données, appelle les tableaux de dimensions  » l’âme de l’entrepôt de données parce qu’ils contiennent les points d’entrée et les étiquettes descriptives qui permettent au système[Data Warehouse/Business Intelligence] d’être utilisé pour l’analyse commerciale « .
  • Tableaux d’information : Ceux-ci enregistrent les résultats des événements mesurés et répondent aux questions « Combien ». Les types de tableaux de faits comprennent Transaction (enregistre les événements au niveau atomique), Instantané périodique (résume les événements sur un intervalle de temps régulier) et Instantané cumulatif (capture l’exécution d’un processus, dont les étapes peuvent survenir à intervalles irréguliers, dans un seul enregistrement).
  • La modélisation dimensionnelle avec les utilisateurs cibles présente plusieurs avantages. Il :
  • Engage les utilisateurs dès le début et leur donne un sentiment d’appropriation sur le résultat final.
  • Étendue de l’effort global de transformation des données en identifiant uniquement les données nécessaires pour répondre aux besoins des utilisateurs.
  • Fournit la relation du « schéma en étoile » entre les faits et les dimensions qui sont faciles à saisir pour la plupart des utilisateurs.
  • Fournit une « cible » pour l’effort de transformation des données

Accélérez la date de vos données grâce au profilage des données

Le fait de connaître le processus de gestion que vous voulez analyser indique généralement la ou les sources de données à transformer. Par exemple, pour analyser les tendances des ventes, vous devez accéder à la base de données clients, à la base de données produits, puis extraire les résultats des ventes d’un système de point de vente. Une fois la source de données connue, vous pouvez extraire les données brutes dans un format utilisable.

Avant de passer à la transformation, le profilage des données peut vous aider à comprendre l’état de ces données brutes et la quantité de travail que vous devez y effectuer pour les rendre prêtes pour l’analyse. Le profilage des données consiste simplement à apprendre à connaître vos données avant de les transformer. Vous voudrez connaître la taille de l’ensemble de données avec lequel vous travaillez, les titres des colonnes, le type de données de chaque colonne, les relations entre les colonnes, la plage de valeurs dans chaque colonne, la fréquence des données manquantes ou indésirables et le nombre de lignes.

Nettoyer : Quand vos données ont besoin d’un bain

Grâce aux connaissances tirées du profilage des données, vous pouvez mieux comprendre la quantité et le type de travail de transformation de données que vous devez effectuer sur les données pour les rendre utilisables. Par exemple, si les champs de date des données source sont au format AAAA/MM/JJJ et que vos champs de date cible sont au format MM-JJ-AAAA, vous devrez transformer les champs de date source pour les faire correspondre au format cible. Ou, si certaines colonnes indiquent une grande fréquence de valeurs manquantes ou de données inutiles, vous devrez peut-être avoir une conversation avec les intervenants opérationnels pour déterminer si vous voulez estimer les valeurs des données manquantes ou exclure ces enregistrements.

Le nettoyage des données au début du processus de transformation des données permet de s’assurer que les données manifestement erronées ne parviendront pas aux utilisateurs finaux et contribuera à améliorer la confiance des utilisateurs professionnels dans les données.

Conformité des données au format cible

Les trois étapes précédentes ont ouvert la voie à la transformation des données dans le format cible, également connu sous le nom de conformité des données. Ici, la connaissance des données source par l´ingenieur big data répond aux besoins des utilisateurs en matière d’attributs de données pour analyser un processus métier. En commençant par mapper les colonnes sources aux colonnes cibles, l’équipe de transformation des données utilise ensuite les outils ETL pour automatiser le flux de données pour ces colonnes sur les charges de données successives.

L’un des grands avantages des données conformes est qu’elles brisent les silos entre les données qui ont longtemps vexé les utilisateurs de business intelligence. La fusion de données en silo entre plusieurs magasins de données exige habituellement beaucoup de travail pour créer une analyse significative. Les données conformes nécessitent beaucoup moins de prétraitement et libèrent les analystes pour un travail à plus forte valeur ajoutée.

Construire des dimensions puis des faits

Comme nous l’avons mentionné plus haut, les dimensions mettent les données en contexte ; les faits expliquent ce qui s’est passé dans le contexte dimensionnel. Par exemple, les clients, les produits et les dates peuvent être des dimensions ; les résultats des ventes et les mesures peuvent être des faits.

L’avantage de charger d’abord les tableaux de dimensions est que les enregistrements de faits nouvellement chargés peuvent ensuite être liés à des enregistrements dimensionnels significatifs. Les données sur les ventes ne seraient pas très utiles si les liens avec les dimensions du client, du produit et de la date n’existaient pas. Ainsi, les dimensions du client, du produit et de la date doivent d’abord être mises à jour à chaque chargement de données, suivies du tableau des données de vente.

En vous basant sur l’engagement des parties prenantes réalisé avant la transformation des données, vous découvrirez peut-être le besoin de créer des tableaux de faits particuliers d’agrégations communes pour faire gagner du temps aux utilisateurs dans l’analyse. C’est là que les faits périodiques et cumulatifs dont il a été question plus haut peuvent entrer en jeu. Par exemple, vous pouvez pré-agréger le volume des ventes par produit et par semaine, mois ou trimestre.

Vérification des dossiers et événements liés à la qualité des données

Le suivi de l’audit et des mesures de qualité des données au cours du processus de transformation des données offre de grands avantages. Le suivi de la vérification saisit le nombre d’enregistrements chargés à chaque étape du processus de transformation et le moment où ces étapes ont eu lieu. Les tests de qualité des données comprennent les types d’écrans suivants effectués sur les données entrantes :

  • Colonne : La colonne inclut-elle des nuls, des données inutiles ou des valeurs hors limites ?
  • Structure : Teste les relations entre les colonnes et les tableaux. Par exemple, tous les enregistrements des faits relatifs aux ventes sont-ils liés à un enregistrement client valide ?
  • Règle de gestion : Vérification de l’intégrité de l’ensemble des données. Par exemple, le volume des ventes de la charge de données actuelle présente-t-il une variation statistiquement valide par rapport aux charges de données précédentes ?

La saisie des résultats des tests de qualité des données, leur inclusion dans les dossiers de vérification d’une charge de données, et l’établissement d’un lien entre les dossiers de faits et les dossiers de vérification permettent de reconstituer la lignée des données de faits et de prouver la validité des paramètres calculés à partir des données de faits.

Cette approche permet aux analystes de « travailler à l’envers » pour répondre à des questions courantes des parties prenantes telles que « D’où viennent ces données » et « Comment puis-je savoir si ces mesures sont exactes ? Le fait d’avoir des réponses prêtes et fiables à ces questions renforce la confiance des utilisateurs dans les données transformées et place l’équipe de transformation des données sur une base solide pour un engagement continu avec les utilisateurs finaux.

Mobiliser continuellement la communauté des utilisateurs

La mesure ultime de la valeur de la transformation des données est la mesure dans laquelle la communauté d’utilisateurs cible accepte et utilise continuellement l’actif de données transformé. Ainsi, la mise à disposition des utilisateurs finaux de nouvelles données conformes n’est pas la fin de votre transformation de données ; ce n’est que la fin du début. Les données transformées doivent être soumises à des tests rigoureux d’acceptation par les utilisateurs, et l’équipe de transformation des données doit rapidement corriger les défauts détectés par les utilisateurs professionnels « dans la nature ».

La prolifération actuelle des données est une mine d’or potentielle pour les entreprises. Pourtant, comme l’or, ces données doivent être soigneusement extraites, examinées, affinées et livrées pour maximiser leur valeur. Comprendre les bases de la transformation des données, comme la modélisation dimensionnelle, le profilage, le nettoyage, la mise en conformité, les tests et la présentation, vous permettra d’obtenir des informations précieuses à partir de vos données qui peuvent avoir un impact important sur votre entreprise.