#TechJobs – Data scientist, un dompteur de données ?
Home Blends & Trends 2 mars 2018Ah le big data… Ce concept révolutionne le monde des entreprises, et dicte les stratégies de nombreuses sociétés qui se doivent, tant bien que mal, de suivre la tendance. Mais il a surtout fait émerger un genre d’experts nouveau : data analyst, data scientist, data engineer… Toute une série de nouveaux métiers ont vu le jour.
Qualifié de métier le plus sexy du XXIe siècle par la Harvard Business Review (les data analysts ne sont pas les seuls cités, Antoine !), le métier de data scientist reste cependant méconnu. Les entreprises qui ont recours aux data scientists font souvent un usage limité, voire erroné des capacités de ces profils mal connus. Alors qu’est-ce qu’être data scientist aujourd’hui ? Et que peuvent-ils apporter aux entreprises ?
Tout d’abord, à quoi sert vraiment la data science ?
Aujourd’hui, la collecte et l’analyse de données ont des domaines d’application variés, ce qui pose de nombreux défis aux professionnels de tous secteurs. Personnaliser des coupons de réduction ou des recommandation de produits sur des sites e-commerce, identifier des clients sur le point de résilier leur contrat (on parle de churn) pour un acteur de l’énergie, de l’assurance ou des télécommunications… autant d’objectifs qui peuvent être atteints avec la data science. À condition de garder un regard critique sur les limites des modèles qu’il est possible d’établir. En effet, l’exploitation de données suscite des questionnements éthiques de la part du grand public et des professionnels, notamment sur des sujets tels que l’automatisation ou encore l’ intelligence artificielle. Aux États-Unis par exemple, deux chercheurs de Stanford affirment pouvoir dire à partir de la photo d’une personne si celle-ci est homosexuelle ou non, via un algorithme dit de réseau de neurones. Cet exemple nous montre que l’exploitation de certaines données, notamment personnelles, peut être mise au service de n’importe quelle cause, avec bien des dérives possibles. Lorsque des outils algorithmiques sont mis en place afin d’aider à la prise de décision, il faut donc être vigilant quant aux utilisations et interprétations possibles.
Et le rôle du data scientist dans tout ça ?
Voyons le comme un « dompteur de données ». Une fois les données brutes récoltées, il faut les traiter, les analyser et les faire parler pour leur donner du sens afin de guider la prise de décision. Le data scientist ne se contente donc pas d’appliquer un modèle statistique, il se doit d’en tirer des enseignements. Dans ses compétences, on retrouve un savant mélange de mathématiques (méthodes statistiques ou encore machine learning), de programmation informatique, mais également une bonne compréhension du métier, du secteur ainsi que des notions de marketing.
Data scientist chez fifty-five depuis plus de deux ans, j’ai eu l’occasion de travailler sur un large éventail de problématiques. Chaque nouveau projet possède ses spécificités, mais la méthodologie à appliquer reste similaire. Dans un premier temps, il faut comprendre la problématique de notre client en définissant les enjeux et les limites du sujet avec les équipes-métiers et marketing. Vient ensuite l’étude de la faisabilité du projet menée avec les équipes d’ingénieurs en charge de la collecte des données , qui s’assureront également de leur fiabilité. Si les données ne sont pas correctement collectées, ou disponibles mais en volume insuffisant, il sera alors impossible d’en tirer un quelconque apprentissage. Certaines entreprises ne sont d’ailleurs pas encore assez matures sur ce plan. Notre travail consiste alors à leur montrer que la qualité des données est indispensable pour démarrer un projet data.
Et que se passe-t-il une fois le projet validé ?
S’ensuit alors une phase d’analyse descriptive qui nous permet d’identifier les valeurs aberrantes dans nos données et nous donne également un premier aperçu des grandes tendances. Par exemple, si un individu a consulté plus de 1000 pages d’un site e-commerce au cours d’une journée alors que 10 pages sont vues en moyenne par jour et par utilisateur, il peut s’agir d’un robot, qu’on exclura alors de nos données. Lors de cette étape, il est essentiel d’échanger fréquemment avec l’entreprise, qui a la meilleure connaissance du domaine d’application. Notre expertise sectorielle des métiers de la banque, de l’assurance ou du retail ne peut bien entendu rivaliser avec celle des équipes-métier de nos clients. Aussi est-ce en travaillant ensemble que nous identifierons les meilleures pistes à explorer.
Enfin, une fois les données analysées et nettoyées, la modélisation peut commencer. Il s’agit d’extraire et d’automatiser des règles de décisions à partir de notre base de données via des algorithmes de machine learning.
Et si on prenait un exemple concret pour y voir plus clair ?
Un annonceur peut faire appel à fifty-five s’il cherche à qualifier son audience, c’est-à-dire enrichir la quantité et la qualité des informations dont il dispose sur cette audience. Il s’agira par exemple de connaître le niveau d’engagement de chaque utilisateur ou ses caractéristiques socio-démographiques. Pour ce faire, le data scientist peut choisir la méthode de clustering. Le clustering permet de créer des groupes homogènes d’utilisateurs, basés sur des variables définies et choisies à l’avance avec l’annonceur. Une fois ces groupes créés, on peut alors définir des stratégies d’activation ciblées. Grâce aux données de navigation, un site e-commerce pourra par exemple segmenter ses utilisateurs en « familles » en fonction de leur profil et de leur intérêt pour tel ou tel type de produit, pour leur proposer l’expérience utilisateur la plus adaptée.
Pour une problématique donnée, il n’existe donc pas de solution unique ! L’analyse des résultats permet au data scientist et à son équipe d’établir différentes pistes à exploiter ou non en fonction des objectifs et de la stratégie fixés par le client, ce qui rend chaque projet unique. Alors, sexy ou pas la data science ? C’est à vous d’en juger !