Les data lakes, un trésor accessible pour les marketeurs

Data Architecture 14 décembre 2018

Piqûre de rappel : un data lake, quésaco ?

« Un data lake est une vaste base de données alimentée par des flux de données épars de l’entreprise. Ces flux se déversent dans ce lac de données comme autant de ruisseaux en provenance des différents métiers de l’entreprise », vous dira Pierre Harand, Managing Director de fifty-five en France.

L’avantage d’un data lake réside en effet dans le stockage de tout type de données, online ou offline, personnelles ou non, issues de fonctions diverses (marketing, finance, RH, produits)… qui pourront être explorées, réconciliées et raffinées, en d’autres termes valorisées, pour répondre à des besoins métiers larges.

De multiples opportunités d’activation marketing

Ces « lacs de données » sont d’excellents moyens d’infuser de l’intelligence data dans l’ensemble des services d’une entreprise, et tout particulièrement au marketing.

Depuis plus de 10 ans, la valorisation de la donnée consommateur s’est en effet démocratisée : solutions en tout genre pour la collecte, connecteurs natifs pour l’activation (entre outils de webanalyse et DSP pour l’activation média par exemple), offres marketing intégrées basée sur des identifiants cross-plateformes pour une vision et une relation 360° avec le client… Bref, tout est fait pour aider les équipes marketing à entériner une stratégie digitale ROIste.

Le data lake joue alors un rôle clé : réceptacle et terrain de jeu pour les initiatives data, il permet la définition et le déploiement de divers cas d’usage, qui seront testés puis, si pertinents, automatisés.

La segmentation en est un premier, simple, mais à valeur ajoutée certaine. Des variables standards mais déjà riches en information, provenant des outils analytics et/ou CRM, valorisées par des algorithmes de machine learning, permettent d’identifier rapidement des personas. En déployant ensuite des stratégies de communication personnalisées sur tous vos leviers (media, CRM, site et application), vous maximisez l’impact et le ROI de vos campagnes, et l’engagement de vos clients.

Des mécaniques de scoring des utilisateurs permettent par ailleurs d’identifier les prospects à fort potentiel. Vous n’engagez alors des investissements médias que lorsque ceux-ci ont de grandes chances d’engendrer des conversions, divisant drastiquement les coûts d’acquisition et de lead.

Pensons également à la recommandation de produits ou de contenus, à la personnalisation des parcours, au retargeting des abandonnistes, à l’analyse et prédiction du churn … autant de cas d’usage orientés ROI que l’implémentation d’un data lake basique permettra de mettre en place rapidement.

Déployer un data lake : un projet aux multiples défis…

Les projets de construction de data lakes apparaissent de plus en plus comme une évidence au sein des équipes data, pour alimenter, entre autres, le marketing. Force est néanmoins de constater qu’ils s’accompagnent de plusieurs défis :

  • Identifier et prioriser les besoins business qui se traduiront ensuite en besoins techniques
  • S’insérer dans l’existant, qu’il s’agisse de l’organisation des équipes, des technologies déjà déployées, d’initiatives déjà amorcées
  • Construire et s’appuyer sur une équipe alliant des compétences métiers, juridiques, techniques, analytiques, et éventuellement statistiques et informatiques ; et définir une gouvernance claire
  • Garantir la qualité de la donnée en entrée car, comme chacun sait : “garbage in, garbage out” ! Autrement dit, si les données d’un système sont mauvaises en entrée, les données en sortie le sont forcément aussi !
  • Assurer la sécurité des données, et répondre notamment aux exigences du RGPD en termes de données personnelles
  • Faire tout cela à un coût raisonnable !

… mais décidément à votre portée !

Pour relever ces défis, des outils sont parfois nécessaires mais il convient surtout d’identifier et d’organiser les contributions et responsabilités de chacun. Voici quelques lignes directrices sur lesquelles repose en partie l’approche fifty-five et qui ont permis le succès des projets data lakes menés avec nos clients :

  • Construire une équipe cross-fonctionnelle dédiée au projet : un chef de projet, un Data Engineer, un Data Analyst et, si besoin, un Data Scientist ; et prévoir des instances régulières et rapprochées pour partager l’avancement de chacun et aligner les objectifs de tous. Cette équipe pourra être constituée de collaborateurs internes ou externes à l’entreprise.
  • Choisir un chef de projet au profil hybride, qui ait à la fois un sens business aiguisé, une bonne compréhension des enjeux techniques et une connaissance avancée du modèle de données de l’entreprise. Motivé par des objectifs métiers, conscient des complexités techniques et des contraintes liées au contexte et à l’existant, il sera ainsi le garant d’une gouvernance et d’une architecture adaptées ; sa casquette métier est alors clée puisque ce sont les objectifs business qui doivent façonner l’infrastructure à déployer et non l’inverse.
  • Si l’équipe data décide de se faire accompagner par un partenaire – parce que l’une ou l’autre compétence manque en interne – veiller à la présence des équipes au jour le jour, à l’indépendance vis-à-vis des solutions partenaires et à la transmission de l’expertise, clés pour un succès à moyen et long terme.
  • S’appuyer sur les technologies cloud du marché ; Amazon Web Services (AWS) et Google Cloud Platform, par exemple, proposent d’activer rapidement un large éventail de solutions avec un engagement minimal. Ils permettent de soulager les équipes des contraintes d’infrastructure afin qu’elles puissent concentrer leur réflexion sur les problématiques métier et leur modèle de données. La définition et priorisation des objectifs business re-deviennent la priorité. Qui plus est, ces solutions sont proposées à des tarifs très compétitifs !
  • Elaborer une architecture simple et pragmatique : 3 sources de données prioritaires (maximum !), des connecteurs natifs, une solution de stockage et de traitement, des planificateurs*, et un premier data set activable pour un POC (Proof Of Concept) sur un cas d’usage simple et aux performances mesurables ; puis itérer ! En commençant par une architecture simple et en construisant par itérations, la gestion de la qualité de la donnée et le déploiement des mesures de sécurité se trouvent grandement facilitées. La première version est alors opérationnelle en quelques mois à peine et le coût devient raisonnable – quelques dizaines de milliers d’euros – puisque c’est le retour sur investissement qui définit l’industrialisation ou non du cas d’usage, et les itérations.
  • Et surtout… se laisser l’opportunité de passer à autre chose si une piste se révèle être une impasse.

En résumé, la construction et l’exploitation d’un data lake sont à la portée de tous dès lors qu’elle est pragmatique, itérative et guidée par des objectifs métiers.

Début 2018, seules 30 % des grandes entreprises possédaient effectivement un data lake. Il s’agit pourtant d’un « graal » accessible, rendant possibles des activations simples et ROIstes, aux performances directement mesurables. Alors lancez-vous !

Passé ce premier niveau de maturité, ce sont ensuite des sujets data science plus avancés qui s’ouvrent à vous. Mesure de l’impact de vos influenceurs pour toujours mieux optimiser votre mix média, recommandations de contenus basées sur l’historique de l’utilisateur mais également sur son profil cognitif par exemple, chatbots ou reconnaissance vocale pour toujours mieux cerner et orienter vos consommateurs… autant de sujets innovants qui rendront, dès demain, votre expérience client encore plus unique !

 

*Planificateurs : solutions qui permettent de lancer tous les traitements automatiquement (en continu, à la même heure tous les jours ou bien toutes les semaines par exemple).

 

Vous reprendrez bien une tasse de thé ?