Le data lake, ou la promesse de casser (enfin !) les silos des systèmes d’information

Le concept de data lake, très lié à la mouvance Big Data, consiste à mettre en place un lieu de stockage unifié des différentes informations présentes dans l’entreprise.

Contrairement à son cousin éloigné le Datawarehouse, le data lake possède une caractéristique clé, à savoir l’absence de schéma strict imposé aux flux de données entrants. Il en résulte une forte flexibilité, qui permet d’interagir facilement avec les données, qu’elles soient brutes ou raffinées. Une autre des caractéristiques clé du data lake est de pouvoir très facilement traiter et transformer l’information afin d’accélérer les cycles d’innovation, et ainsi être un support aux différent projets data de l’entreprise.

L’émergence des data lakes est due aux nouvelles technologies du Big Data, amenant une rupture économique dans le coût de la donnée.

Nombre d’entreprises mènent actuellement des réflexions pour se doter d’un data lake, que ce soit pour sa relation client (exploitation de l’ensemble des interactions et constitution d’une vision client 360°), son outil industriel (collecter les données de fabrication, mais aussi celles liées à l’usage des produits, à des fins de maintenance préventive ou d’optimisation des produits) ou ses flux financiers.

Et il faut parier qu’à l’heure de l’Internet des Objets, le champ d’application des data lakes ira encore en s’élargissant.

Un socle technique néanmoins complexe

Si Hadoop apparaît comme une évidence pour construire un data lake, il serait réducteur de penser à cette seule technologie, majoritairement orientée stockage. D’autres composants logiciels sont nécessaires tant pour le traitement des données, en mode batch comme en mode temps réel, ou pour des besoins périphériques comme la visualisation, la data science, ou la gouvernance des données. Intégrer l’ensemble de ces composants (lesquels, issus de l’Open Source, sont encore en évolution constante) demande des compétences pointues et rares sur le marché.

Mettre en place un data lake demandera également de maîtriser les environnements Cloud. Dans la construction d’un data lake, le Cloud est assurément la meilleure option, car elle permet de provisionner à la demande les ressources pour faire croître l’infrastructure au fur et à mesure des besoins.

Le « Data lake as a Service » : le traitement Big Data prêt à l’emploi

Si les entreprises ont aujourd’hui accès à des quantités quasi-infinies de données, elles ne disposent pas de solutions rapides et peu couteuses pour les exploiter.

Pour répondre à ces attentes, et leur éviter de se lancer dans un projet de déploiement « on-premise » long et coûteux, certains acteurs comme Bigstep, ou encore Cloud Temple en France, proposent des solutions de « data lake as a service ». Elles mettent à disposition de leurs clients un ensemble de composants logiciels dans le Cloud, prêts à l’emploi car managés, pour leur permettre de se concentrer sur le développement de leurs applications data.

Face à l’ampleur du chantier que représente un data lake, le « Data lake as a Service » permet de disposer, au travers d’un service managé, d’une plateforme prête à l’emploi, capable de grandir avec les besoins de l’entreprise, et de se concentrer sur la production et l’exploitation des données de l’entreprise.

 

Pierre Schaller, DGD Cloud Temple

 

Voir aussi :