[Article Partenaire] Pourquoi il ne faut pas confondre machine learning et magie noire - Petit Web

Qui ?
Romain Warlop, Data Scientist Lead chez fifty-five.

Quoi ?
Une tribune de notre partenaire fifty-five, pour comprendre à quoi peut servir le machine learning et les pré-requis pour bien en tirer parti.

Comment ?

Le but principal du machine learning ? Automatiser les tâches répétitives à l'aide d'ordinateurs. Pour cela, la machine reproduit le comportement humain en se fondant sur des algorithmes. Qu'il s'agisse de reconnaître une personne dans la rue ou de faire ses lacets, des tâches simples pour des humains sont en fait très complexes à faire faire par des machines. L'idée qui sous-tend tout cela ? Si l'événement B se produit toujours peu après l'événement A, il y a de grandes chances pour que ces deux événements se succèdent à l'avenir.

Les algorithmes de machine learning se décomposent en 3 familles :
- L'apprentissage supervisé ("supervised learning"), pour « prédire » un comportement futur grâce à un historique de données (que nous allons aborder ici) ;
- L'apprentissage non supervisé ("unsupervised learning"), pour regrouper des observations similaires ;
- L'apprentissage par renforcement ("reinforcement learning"), pour interagir avec l'environnement en vue d'atteindre un objectif prédéterminé.

Pourquoi il n'y a pas de magie dans le machine learning

Prévoir un événement ou des données futurs sous-tend le "supervised learning" ou "apprentissage supervisé". Mais cet aspect prédictif peut troubler la compréhension. Si quelqu'un vous dit : "j'ai dans la main un fruit vert, rond, avec un diamètre de 7,2 cm, qui pèse 152 grammes, avec une queue et des pépins", vous pensez tout de suite à une pomme. Vous avez fait une "prédiction" en vous basant sur des données, en vous fondant sur votre histoire et ce que vos parents vous ont appris pour reconnaître une pomme. Le poids, la forme et la couleur sont des données observables. Et le fait de reconnaître le fruit, le but.

Si vous nourrissez un algorithme de machine learning avec ces données et le nom du fruit associé, vous créez de l'information supervisée. Prenez alors un fruit dont vous ne connaissez pas le nom, rassemblez cette information et donnez-la au modèle. Il prédira le nom probable du fruit en se basant sur les données collectées. Mais il ne pourra pas savoir ce qu'il ne connaît pas. Il ne reconnaîtra par exemple jamais une banane s'il n'a jamais été confronté aux informations propres à la banane. Mais si vous lui donnez des données sur des poires et des pommes, il pourra discerner des millions de pommes et de poires en une fraction de seconde.

Les applications pour le marketing digital

Le supervised learning peut résoudre beaucoup de sujets très complexes si vous rassemblez un large historique d'informations supervisées. Cet historique peut venir des moteurs de recherche (montrer la meilleure réponse à une requête, enchérir le montant juste pour un mot clé etc.), des moteurs de recommandation (comme Netflix), ou encore d'un modèle de pricing ou d'attribution publicitaire. Vous pourriez par exemple vouloir déterminer des informations socio-démographiques à propos d'utilisateurs, pour ajuster votre message en fonction de la cible. En se fondant sur de l'information socio-démographique réelle, le "supervised learning" peut déterminer des règles qui lient la cible et son comportement de navigation, pour en déduire la valeur pour l'ensemble de la population.

Ce type d'algorithme est aussi souvent utilisé pour prédire l'action d'un utilisateur : va-t-il acheter un produit dans un futur proche ? Est-il sur le point de passer chez la concurrence (taux de churn) ? En étudiant un très large historique de churn, l'algorithme peut en expliquer les raisons, mais seulement si l'information nécessaire est disponible. Par exemple, si 90 % des clients s'en vont à cause de l'assistance téléphonique, mais que celle-ci n'est pas enregistrée, l'algorithme ne pourra pas le deviner !

Avant de consacrer des mois de travail au machine learning, rappelez-vous donc que cette discipline n'a rien de magique : l'algorithme apprend les règles pour relier des variables à un objectif, exactement comme le fait un humain. Commencez à réfléchir à la façon dont vous pouvez construire le modèle et demandez-vous si les données pertinentes sont disponibles. Sinon, commencez à rassembler l'information en question avant de vous lancer dans des démarches chronophages qui auront peu de chances d'aboutir.

Romain Warlop

Programmatique et loi Sapin : entre le clair et l’obscur

Trois annonceurs en quête d’internalisation

Web summit 2018 : les anticolonialistes de la data ont la parole

Drive to web : attention aux dérives