Tout comprendre sur les Data Platform !
La donnée, nouvel "or noir" du 21ème siècle, est en train de bouleverser les méthodes et technologies des Directions des Systèmes d'Information qui servent leurs métiers, principalement de part leur diversification, l'augmentation de leur volume et des méthodes de traitement et d'analyses qu'il est possible de leur appliquer aujourd'hui. Les rapports Statista estiment que les données créées et consommées dans le monde verront leur volume augmenter de 50% entre 2020 et 2022 et que 80% d’entre elles seront non structurées d’ici 2025, c’est-à-dire sous forme d’images, de documents PDF ou encore de logs de navigation web. Ces usages Big Data sont portés par des infrastructures spécifiques qui peuvent être difficiles à comprendre.
Data Warehouse
Les Data Warehouses, ou entrepôts de données, sont d’imposantes bases de données : les données sont donc transformées pour correspondre à une structure pré-définie et sont stockées ainsi. Leur requêtage est donc plus simple, et les usages associés sont souvent de la visualisation à des fins de Business ou Operational Intelligence.
Les Data Warehouses sont utilisés et bien maîtrisés depuis plusieurs années, et le legacy on-premise a encore un fort impact dans beaucoup d’entreprises. Les leaders du marché, aussi bien en termes de solutions que de part de marché, sont les solutions serverless des grands Clouds Publics, BigQuery de Google, Redshift d’AWS et la solution Azure, suivies de près par les solutions Teradata et Snowflakes entre autres.
Data Lake
Les Data Lakes, ou lacs de données, sont quant à eux des répertoires qui permettent de stocker des volumes massifs de données variées, y compris dans leur format brut, et de manière très rapide. Garder les données dans leur format natif permet donc de garder tout le champ des possibles concernant leur traitement. Mais pour pouvoir par la suite requêter et exploiter ces données et éviter d’avoir un “Data Swamp”, ou marécage de données, il est nécessaire d’appliquer une forme de structuration. Les Data Lakes prennent donc souvent la forme d’un stockage objet sur lequel on applique une surcouche classifiante de headers / tags / labels, et on parle alors de métadonnées, ou de “donnée sur une donnée”.
La première solution de Data Lake est Hadoop, avec son framework HaDoop File System, qui a rapidement été limitée de par sa caractéristique on-premise à contre-courant du besoin premier de stocker rapidement des volumes massifs de données. Aujourd’hui, le framework HDFS est exploité par beaucoup de solutions du marché et la majorité des solutions de Data Lake sont dans le Cloud. Le choix du Cloud public, avec des solutions telles que Azure ADLS Gen2 et AWS S3, est assez évident : il repose sur des infrastructures industrialisées et très scalables, et il est vecteur d’innovation avec de nombreux services ajoutés ou améliorés tous les ans.
Plateforme (Big) Data
Le Big Data est un terme conceptuel qui désigne aussi bien ces massifs et divers ensembles de données, que les traitements d’analyse que l’on leur applique afin d’en tirer toute la valeur ajoutée. On peut parler de visualisation et de Business Intelligence portée par des données structurées, mais aussi et surtout de Data Science et de Machine Learning souvent portées par des données brutes, et qui permettent de faire de l’analyse prédictive, de l’identification de patterns, de l’analyse temps-réel etc.
Ces usages requièrent donc la convergence de plusieurs sources de données et un écosystème de solutions qui couvre leur ingestion jusqu’à leur analyse avancée et la visualisation associée, en passant par le stockage, les différentes étapes de préparation, de traitement et leur requêtage : on parle alors de plateforme de données, dans laquelle chaque donnée aura un pipeline, ou chemin. Concrètement, cet écosystème de solutions inclut un Data Lake, un Data Warehouse, des solutions d’ETL, comme Talend ou DataStage d’IBM, de visualisation comme PowerBI ou Tableau, de Machine Learning et bien d’autres.
Quand on choisit ses solutions de plateforme de données et de Data Lake, il est donc essentiel d’évaluer l’écosystème des solutions compatibles autour du stockage pur. Les leaders de ce marché, dont les Clouds publics, le sont car ils offrent un écosystème complet et unifié de tous les services autour de la données, avec leur propres solutions et/ou l’intégration de solutions tierces leader.