Stratégie Hébergement Datalake : On prem ou dans le Cloud ?
L'objectif principal d'un Datalake est de valoriser la donnée. Pour ce faire, il est nécessaire de s'affranchir des problématiques d'infrastructures liées à l'hébergement. De ce fait, quelle est la meilleure stratégie à adopter pour l’hébergement de mon Datalake ?
Lors de la mise en place d’un Datalake, trois caractéristiques sont recherchées :
De la flexibilité pour accepter tout type de données brutes de sources diverses et variées
Une capacité de calcul élevée pour analyser ces données
Un espace de stockage volumineux et scalable pour absorber une quantité croissante d’informations
Pour répondre à ces enjeux, se pose alors une question devenue quasi-systématique avec l’ère du Cloud : est-il plus pertinent d’héberger mon Datalake dans le Cloud ou vaut-il mieux le laisser on-premise ?
Lors de l’émergence des Datalake, les premiers ont naturellement été implémentés on-premise, ce qui présente certains inconvénients :
Coût d’investissement élevé pour l’achat du stockage et des serveurs
Nécessité de mettre en oeuvre une infrastructure complexe entraînant des durées de projet élevées
Nécessité de maintenir/administrer l'infrastructure sous-jacente au lieu de se focaliser sur la partie intéressante du Datalake : la donnée
Sans surprise, les solutions Cloud permettent de s’affranchir des inconvénients soulevés ci-dessus. Elles présentent également d’autres avantages typiques d’un Cloud Digital à savoir :
Modèle Opex évitant d’avoir des coûts d’investissements
Meilleur time-to-business car possibilité de se focaliser directement sur le besoin sans se soucier de l’infrastructure
Scalabilité by design
Richesse de l’écosystème avec de nombreuses fonctionnalités facilitant l’utilisation et l’analyse des données
Mindset agile et paiement à l’usage facilitant les tests de nouveaux algorithmes par exemple.
Quant aux solutions Cloud, les trois acteurs majeurs (Amazon, Microsoft et Google) proposent des services managés pour le stockage des données. Google semble un peu en retrait sur la partie analytics, cependant les fonctionnalités proposées évoluent rapidement et le choix d’une plateforme Cloud dépend plus souvent de l’existant ou d’une stratégie globale que d’un service spécifique.