Le Data Scientist n’existe pas

Home Blends & Trends 14 janvier 2021

« Sexiest job of the 21st century , » métier d’avenir, job éphémère ou buzzword, le terme de Data Scientist suscite les discussions. Etre Data Scientist recouvre aujourd’hui de nombreuses réalités. Et si on s’essayait à une définition ? 

La science consiste à « produire des « connaissances scientifiques » à partir de méthodes d’investigation rigoureuses, vérifiables et reproductibles » (Wikipedia). Si l’on se réfère à l’étymologie, le Data Scientist – le scientifique de la donnée – est donc celui qui expérimente sur les données, une sorte de chercheur, de savant, qui étudie les phénomènes fondamentaux, de la ou grâce à la donnée. Ajoutons un soupçon de pragmatisme et d’opérationnalité, et on pourra alors considérer la Data Science comme une grande discipline qui, par une succession de manipulations, consiste à extraire la connaissance d’ensembles de données pour répondre à une problématique définie. 

Alors, qui est vraiment le Data Scientist, cet être de plus en plus tendance ?

Les formations, des machines à Machine Learners

De nombreuses écoles proposent désormais un cursus Data Science à leurs étudiants. Un « must-have » dirait-on. Bien qu’on observe une évolution, la plupart de ces formations préparent surtout les étudiants à devenir des Machine Learners. Ils maîtrisent ainsi les derniers algorithmes de pointe et sont les rois de Kaggle, se focalisant principalement sur le volet modélisation de la grande chaîne de valeur de la Data Science.

Le Machine Learning, né dans les années 1950, est en effet un ensemble de techniques visant à donner à un ordinateur la capacité d’effectuer une tâche de façon toujours plus précise et optimisée. Le contexte métier, la réalité de la donnée et l’interprétabilité sont alors parfois occultés au profit de l’optimisation de métriques difficilement exploitables en entreprise.

Revenons par exemple à Kaggle : sur cette plateforme, on demande aux participants d’appliquer des techniques ultra-sophistiquées à des données souvent déjà prêtes, dont on ne sait pas toujours à quoi elles correspondent, avec pour but ultime d’obtenir le meilleur score de prédiction. C’était le cas pour le très connu challenge Netflix par exemple.

Si les connaissances en Machine Learning, théorique et pratique, sont essentielles pour résoudre un problème, elles suffisent malheureusement rarement en entreprise, où la connaissance et la compréhension du contexte métier, la disponibilité et la qualité de la donnée et l’interprétabilité des résultats sont absolument clés. 

On comprend alors que Machine Learner et Data Scientist ne sont pas interchangeables et qu’une entreprise doit savoir si elle a besoin du premier ou du second pour mener à bien ses projets data. Rappelons d’ailleurs que 50 % des projets Data Science connaissent l’échec, en partie en raison d’une difficulté à organiser les compétences (étude IDC).

Mais cela ne nous dit toujours pas qui est le Data Scientist…

Le fameux mouton à cinq pattes

La Harvard Business Review qualifiait en 2012 le métier de Data Scientist de « sexiest job of the 21st century »  mais sans vraiment le détailler. Difficile à préciser quand on sait que Data Scientist chez Renault, à la Société Générale ou encore chez Airbnb consistent en des rôles très différents.

Il y a néanmoins une constante : l’orientation business. La Data Science a en effet pour but de répondre à une problématique métier à partir de données ; on parle alors de cas d’usage. Maintenance prédictive, détection de fraude, personnalisation des parcours clients ou encore recommandations de contenus en sont autant d’exemples.

Ces projets requièrent un large panel de compétences et d’expertises, notamment : 

  • Une bonne compréhension du besoin métier et la capacité à proposer une approche rigoureuse et pragmatique pour répondre à la problématique
  • Des connaissances en architecture technique pour penser et déployer l’architecture optimale pour supporter le cas d’usage et le mettre en production
  • Une maîtrise des outils de data analyse, de description statistique et de visualisation pour comprendre les données et orienter les choix de traitement et de modélisation
  • Des compétences d’extraction, de préparation et de manipulation de données
  • Une maîtrise des statistiques et du Machine Learning, s’il y a effectivement un besoin de modélisation
  • La capacité à interpréter les résultats analytiques et/ou de modélisation, à en tirer des enseignements activables pour les équipes métiers et à les restituer en des termes accessibles pour tous
  • La capacité à accompagner l’utilisation des résultats… (par exemple : établir et automatiser un plan d’action lorsqu’une fraude est détectée, pousser intelligemment les contenus personnalisés sur un site web ou dans des campagnes email)

…et à en mesurer les performances pour continuer à les améliorer !

La liste est longue et qu’on se le dise… Le mouton à cinq pattes n’existe pas. 

Et si le terme Data Scientist était finalement un abus de langage ? Et si la Data Science était en réalité l’apanage d’une équipe entière, une équipe cross-fonctionnelle ?

Lumière sur la légende du Data Scientist

La Data Science peut en réalité difficilement être incarnée par une seule personne. Plusieurs profils sont requis :

  • un chef de projet Data (parfois appelé « PO Data » ) : avec sa sensibilité business aiguisée, sa bonne compréhension des enjeux techniques, et l’expertise du reste de l’équipe, il propose une approche pour répondre au problème métier et est garant de son bon déroulé
  • un/des Data Analyst(s) : armé de ses compétences analytiques, il prépare et explore les données – en SQL, via des solutions de visualisation ou encore des outils statistiques – pour répondre à des questions métier précises et restituer ses résultats de façon impactante et utile pour l’entreprise
  • un/des Machine Learner(s) : mi-statisticien, mi-programmeur, il manipule d’importants volumes de données, identifie des patterns pas toujours intuitifs et prédit des comportements ou événements
  • un/des Data Architect(s) : c’est lui qui pense, déploie et maintient l’architecture globale qui supporte les traitements, en veillant à la scalabilité, la résilience, ainsi qu’au caractère évolutif de la solution
  • un/des Data Engineer(s) : il développe et entretient les systèmes de collecte, stockage et mise à disposition des données afin d’alimenter Data Analyst(s) et Machine Learner(s) ; les rôles de Data Architect et Data Engineer requerrant des compétences proches, ils peuvent être incarnés par une même personne 

Clarifier les rôles de chacun de ces « Data Scientists » est ainsi absolument clé pour l’entreprise ; à la fois pour recruter, éviter les désillusions, garantir l’épanouissement des collaborateurs et assurer le succès des initiatives data.

Chez fifty-five, nous adaptons ainsi les dispositifs aux ressources disponibles chez nos clients afin de parvenir à cette vision cible. Nous retrouvons donc les profils présentés ci-dessus :

Le graal ne réside ainsi pas dans le recrutement d’un Data Scientist “couteau-suisse”, mais plutôt dans la capacité à mettre à plat les besoins et les forces de chacun afin de constituer une équipe Data Science opérationnelle et épanouie, et d’organiser au mieux les différentes compétences. Finalement, la clé… c’est la gouvernance !

Vous reprendrez bien une tasse de thé ?