
Data et Machine Learning pour optimiser l’acquisition de

Un enjeu majeur pour la direction marketing
La création de l’outil Ouiboost, afin d’optimiser l’acquisition, était donc un enjeu de premier ordre pour la direction marketing de Oui.sncf.
Ce site est l’un des 5 plus grands sites d’e-commerce en France et la majorité du trafic du site vient d’Adwords.
2 TB
de données
par jour
1
Data Product Manager
12 M
visiteurs
uniques / mois
Facteurs clés du succès
Valoriser les données internes pour optimiser l’acquisition
L’équipe Acquisition du Marketing Oui.sncf utilise Google Adwords pour promouvoir les offres de Oui.sncf. L’environnement concurrentiel sur les voyages impose des stratégies d’optimisation forte pour rester compétitif. Concrètement, il s’agit d’obtenir un Cost Per Clic maximal pour chaque mot-clé et pouvoir ainsi enchérir au mieux.
Pour gérer les campagnes publicitaires de Google Adwords, l’équipe Acquisition utilisait jusqu’alors Adobe Media Optimizer (AMO), le plus grand logiciel du marché.
Néanmoins cette situation ne paraissait plus satisfaisante :
- la solution AMO est intéressante mais trop générique : développer des algorithmes spécifiques au secteur permet d’affiner les prédictions.
- Oui.sncf possède un Data Warehouse extrêmement riche, avec plus de 2 TeraBytes de données par jour. En utilisant AMO, l’équipe marketing se coupait de cette mine de données.


Nathan Chauliac
Head of Data Product Management
#Data #AI #ProductManagement
L’équipe Ouiboost au grand complet
1 Data Product Manager de Thiga
3 data engineers et 3 data scientists
Aboutir à un MVP en 1 mois et demi
Trop souvent, la démarche data passe par une recherche d’algorithme optimisé sur lequel l’équipe data travaille pendant plusieurs mois, voire années, avant d’en donner le résultat au métier.
Cette approche présente un double inconvénient : elle prive les équipes métier de la solution pendant tout le temps de la réalisation, elle ne permet pas aux data scientists de confronter leur modèle à la réalité et elle augmente donc considérablement le risque du projet.
Pour éviter ces écueils, nous avons fait deux choix forts pour optimiser l’acquisition :
Mettre en production un modèle naïf
Afin d’avoir un premier modèle en production en 1 mois et demi seulement, nous avons posé les bases de l’architecture cible du modèle en simplifiant au maximum chaque brique le composant. Concrètement, cela veut dire récupérer uniquement les données les plus pertinentes et baser “l’intelligence algorithmique” sur des éléments simples : moyennes, règles métiers. À ce stade, il n’y a donc pas de Machine Learning.
Travailler sur un sous-ensemble de mots-clés
Dès le début, nous avons défini avec l’équipe acquisition un sous-ensemble de mots-clés qui serait géré par le MVP dès sa mise en production. Ainsi, nous avons pu rapidement confronter notre modèle à la réalité, le comparer à l’outil AMO et focaliser les développements sur les éléments les plus critiques.
Élargissement
Une fois que les performances étaient satisfaisantes sur le test, nous avons élargi progressivement le périmètre à l’ensemble des achats Adwords de Oui.sncf.
Surperformance
Une fois l’ensemble des mots-clés pris en compte, nous travaillons pour améliorer les performances en prenant en compte de nouveaux éléments de complexité (saisonnalité, environnement concurrentiel, données géographiques).
Set-Based Concurrent Engineering
Identifier l’approche la plus efficace en Machine Learning
Si certaines des briques naïves avaient déjà des performances acceptables, il est rapidement apparu que d’autres avaient un fonctionnement trop erratique pour être correctement appréciées grâce à des règles manuelles. Des algorithmes de Machine Learning capables d’apprendre des données historiques pour prédire correctement des comportements complexes devenaient nécessaires. Mais comment choisir la bonne approche et éviter d’investir trop d’efforts dans une piste qui mènerait à une impasse ?
Pour relever ce défi, nous avons adapté une méthodologie de Toyota : le Set-Based Concurrent Engineering ou SBCE. Cette méthode est utilisée à l’origine pour gérer l’innovation dans des systèmes complexes de l’industrie automobile. Elle permet d’évaluer un large éventail de solutions en testant leur combinaison jusqu’à aboutir au système le plus efficace.
Cette méthodologie se découpe en 6 étapes :
- Définition du problème, des contraintes et des KPIs ;
- Exploration : brainstorm sur les approches possibles et sélection des 4 plus pertinentes ;
- Set-Based Communication : prototypage simultané de ces 4 solutions sur une semaine ;
- Convergence : mise en commun des enseignements et hybridation de ces solutions ;
- Prototypage sur une semaine des solutions hybrides ;
- Sélection de la solution cible.
