Stratégie Hébergement Datalake : On prem ou dans le Cloud ?

 
Datalake_GBA-final.jpg

L'objectif principal d'un Datalake est de valoriser la donnée. Pour ce faire, il est nécessaire de s'affranchir des problématiques d'infrastructures liées à l'hébergement. De ce fait, quelle est la meilleure stratégie à adopter pour l’hébergement de mon Datalake ?

Lors de la mise en place d’un Datalake, trois caractéristiques sont recherchées : 

  1. De la flexibilité pour accepter tout type de données brutes de sources diverses et variées

  2. Une capacité de calcul élevée pour analyser ces données

  3. Un espace de stockage volumineux et scalable pour absorber une quantité croissante d’informations

Pour répondre à ces enjeux, se pose alors une question devenue quasi-systématique avec l’ère du Cloud : est-il plus pertinent d’héberger mon Datalake dans le Cloud ou vaut-il mieux le laisser on-premise ?

Lors de l’émergence des Datalake, les premiers ont naturellement été implémentés on-premise, ce qui présente certains inconvénients : 

  • Coût d’investissement élevé pour l’achat du stockage et des serveurs

  • Nécessité de mettre en oeuvre une infrastructure complexe entraînant des durées de projet élevées

  • Nécessité de maintenir/administrer l'infrastructure sous-jacente au lieu de se focaliser sur la partie intéressante du Datalake : la donnée

Sans surprise, les solutions Cloud permettent de s’affranchir des inconvénients soulevés ci-dessus. Elles présentent également d’autres avantages typiques d’un Cloud Digital à savoir : 

  • Modèle Opex évitant d’avoir des coûts d’investissements 

  • Meilleur time-to-business car possibilité de se focaliser directement sur le besoin sans se soucier de l’infrastructure

  • Scalabilité by design

  • Richesse de l’écosystème avec de nombreuses fonctionnalités facilitant l’utilisation et l’analyse des données

  • Mindset agile et paiement à l’usage facilitant les tests de nouveaux algorithmes par exemple.

AWS-Azure-GCloud.jpg

Quant aux solutions Cloud, les trois acteurs majeurs (Amazon, Microsoft et Google) proposent des services managés pour le stockage des données.  Google semble un peu en retrait sur la partie analytics, cependant les fonctionnalités proposées évoluent rapidement et le choix d’une plateforme Cloud dépend plus souvent de l’existant ou d’une stratégie globale que d’un service spécifique.


Notre position :

L’option Cloud présente des avantages certains. Cependant, ce n’est pas non plus LA solution idoine. En effet, il est nécessaire de faire attention au coût de stockage pour éviter de mauvaises surprises au moment de la réception des factures. De plus, le Cloud n’enlève pas la complexité de l’exploitation et de l’analyse des données mais permet de s’affranchir de la gestion d’une infrastructure afin de porter ses efforts sur le but d’un Datalake à savoir la valorisation de la donnée.