Datawarehouse, datamart, data lake, deep learning, AI… sont des mots que vous ne saisissez pas vraiment ? Il est temps pour vous de plonger dans le monde infini des Big Data.
Pourquoi le Big Data ?
Si on traduit mot à mot, Big Data signifie Mégadonnées. On imagine bien qu’à ce niveau là vous n’êtes pas plus avancé que ça ! Les Big Data, se résument souvent par 5 V: Volume Variété Vélocité Véracité Valeur.
Pour comprendre pourquoi, on vous propose de revenir plusieurs années en arrière afin de nous pencher sur les technologies précurseures. Nous voici dans les années 70. Avec le développement de l’informatique dans les grands comptes, on ressent de plus en plus le besoin d’organiser les données.
C’est un certain Edgard F. Codd, informaticien chez IBM, qui apportera la solution avec les bases de données relationnelles. Elles organisent les données à l’aide de tableaux à deux dimensions. Les logiciels qui permettent de gérer les bases de données utilisent un langage spécifique pour les questionner. Il s’agit du SQL.
Les bases relationnelles peuvent traiter un grand nombre de requêtes mais souffrent de plusieurs limites :
- Elles n’acceptent pas les données non structurées (par exemple, un commentaire Facebook comporte des données non structurées : il contient à la fois des images et du texte)
- Elles prennent du temps pour faire des traitements compliqués (ex: Quels sont les résultats des ventes par gamme de produits, par grade de vendeur, par région, etc.)
- Elles ne créent pas d’historique pour les recherches : il faut donc refaire le travail pour chaque requête.
Dans les années 80, afin de remédier à certaines limites comme la lenteur de traitement, R. Kimball, B. Inmon ont proposé la BI (Business Intelligence, ou informatique décisionnelle). Il s’agit d’une solution permettant de collecter, extraire, transformer dans le but de les analyser selon plusieurs critères et de les présenter aux décideurs.
Ci-dessus vous pouvez voir l’architecture la plus simple du BI.
Les données (aux sources et format multiple) passent par un ETL (extract-transform-load), qui se charge de centraliser les informations avant de les stocker dans un data warehouse (un entrepôt de données). L’avantage du BI est de pouvoir classer, historiser et analyser.
Le cube OLAP est une structure qui contient des valeurs précalculées selon différents axes d’analyse. Par exemple, si on reprend l’exemple précédent : “Quels sont les résultats (…) du mois de septembre de l’année dernière ?”, le cube stockera la réponse et évitera les calculs sur la base. Enfin la data visualization (ou dataviz) permet aux décideurs d’avoir une vision métier sur les données.
A partir de 2010, le Data Lake fera son apparition. Contrairement au Datawarehouse qui ne centralise pas les données sous toute les formes, le data lake permet de garder tout le potentiel des données originelles pour affiner l’analyse de celles-ci par les data-scientists.
L’évolution logique suivante était donc de passer de l’aide à la décision avec la visualisation des données à l’analyse poussée des données avec des algorithmes de prédiction. C’est ce qui arrivera avec le data-mining dans les années 80.
Il permettra d’ouvrir la voie au Big Data et à l’Intelligence Artificielle, mais ceci est une autre histoire que l’on vous racontera la semaine prochaine…
Chloé / Houssem / Victor