Les 1er et 2 avril derniers se tenait la 3ème édition du salon Big Data Paris, avec nombre de retours d’expérience et de conférences adressant les non-techniciens d’entre nous, et même une série d’interventions dédiée aux usages en marketing.
Que les « big data » soient une vraie nouveauté ou un bon concept marketing qui permette au sujet d’émerger différemment dans l’espace de discussion et l’intérêt qu’il suscite auprès des entreprises, une chose est sûre néanmoins: c’est un sujet désormais démocratisé, à la portée d’un grand nombre d’entreprises même petites, avec des applications très variées où l’imagination risque plus souvent d’être la ressource manquante que la donnée ou la technologie…
En voici pour preuve les différents retours d’expérience recueillis au cours de la première journée à laquelle j’ai participé :
1. Présentation Tata Consulting Services
2. Présentation Cap Gemini
3. Keynote de Doug Cutting, Cloudera (co-fondateur d’Hadoop)
4. Présentation de Christophe Benavent (Université Paris Ouest): ci-dessous
5. Amadeus Leisure Group
6. Renault et Access France
7. Vega France et Coheris
8. SFR et Sinequa
——————————————————————-
4. Big data et marketing : de l’étude à l’action
par Christophe Benavent, Professeur Université Paris Ouest Nanterre La Défense
En guise d’introduction à une série de retours d’expérience dédiés aux usages marketing, Christophe Benavent a fait une présentation analytique des changements et enjeux actuels liés aux Big Data pour le marketing, en exerçant un œil critique sur ces changements technologiques qui ne créent parfois ou souvent, c’est selon, du changement qu’en surface (dans les méthodes utilisées), sans régler les problèmes de fond (qui sont du fait de la volonté plus que de la technologie).
Voici une retranscription de sa présentation.
Big Data, des enjeux pour le marketing
Big Data, c’est d’abord un processus de données, dont les étapes ne changent pas dans leur séquencement mais qui sont pour certaines profondément modifiées dans leur réalisation propre (collecte, traitement, rapidité…) :
Il n’y a jamais de données brutes : il faut en être conscient. Par exemple : à quel moment pense-t-on qu’un client n’est plus un client ? C’est une convention de délai par rapport à son dernier achat, choisie par l’entreprise, qui va déterminer cela.
Selon Christophe Benavent, le domaine qui bénéficiera le moins des Big Data est celui des études, car il y a déjà énormément de données, qui ne sont tout simplement pas exploitées ! Il voit plutôt leur utilité dans l’automatisation et l’empowerment (illustration plus loin).
La révolution des capteurs
– Opinions et attitudes : risque de la collecte sauvage – l’intérêt réside ici dans la granularité permise par les big data (ex : questionnaires de satisfaction réalisés par Booking.com).
– Comportement d’achat (CRM) : au-delà de la caisse, permet d’accéder à des informations à un moment du parcours d’achat pas encore pleinement exploité
– Avis et commentaires : défis de l’analyse du sentiment et du TAL (Traitement Automatique des Langues). C’est un défi linguistique, pas technologique.
– Détecter les intentions : le big data c’est aussi le « simple data ». Les plus grandes réussites dans ce domaine (Google, Criteo : à partir de ce que recherchent les gens) sont des modèles simples.
– Dynamique de la géolocalisation : macro (granularité) et micro (iBeacon)
– Tracer le corps en mouvement : vers le coaching digital (haptic technology)
– Températures, pulsations et humeurs : la santé et les émotions
– Les enjeux de la reconnaissance faciale
(NDLR : exemple récent vu parmi les lauréats 2014 de Netexplo, Simsensei, qui reconnaît visuellement les signes de dépression)
Le problème de la qualité
i) Le problème clé des biais de sélection.
Ex : dans le traitement des avis consommateurs. Christophe Benavent s’appuie pour illustrer son propos sur une étude qu’il a faite réaliser à ses étudiants sur les avis consommateurs dans le secteur du tourisme. Leur étude a révélé des biais comportementaux qui orientent forcément le résultat produit. Ils ont identifié 2 types de profils majeurs : les gens qui commentent rarement, et ceux qui le font abondamment. Les premiers, quand ils prennent la parole, le font dans un souci de vengeance, et produisent donc généralement des avis négatifs. Alors que les seconds le font souvent parce qu’ils ont intégré cela dans leur mode de vie, et tirent de leur présence active sur le web une satisfaction et une reconnaissance personnelle, une recherche de réciprocité. Ce sont donc des gens qui produisent généralement des avis positifs.
Or, mécaniquement de ce fait, il y a beaucoup plus d’avis produits par la seconde catégorie que par la première : l’agrégation de l’ensemble des avis sans tenir compte de ce paramètre crée un biais de sélection favorisant les avis positifs…
ii) Le mensonge et la dissimulation.
Le comportement des gens sur les réseaux sociaux favorise le mensonge ou la dissimulation. Dernier avatar en date : la prolifération des « selfies » = la construction de personnages imaginaires… Quand on traite des données issues des réseaux sociaux, il faut prendre garde à cela.
iii) La censure, le troncage et l’interruption.
Problème des séries chronologiques et problème du traitement des cohortes.
Ex : dans le traitement de données issues du réseau cellulaire, avec des coupures liées aux zones sans relais. Autre ex : quand pour éviter de faire payer un client pour le renouvellement de sa carte de fidélité perdue, la caissière lui en donne une autre sous un autre nom.
Des sources multiples de données
– Fusion des données : le fait de pouvoir mettre sur le même plan des données de niveaux d’analyse différents (i.e. CSP, données Iris et comportements désagrégés).
– Mashup : pouvoir associer des données de sources différentes.
– Open Data : la logique de la restitution et des tiers.
> Tout cela devant amener à la construction d’une véritable architecture des données au sein d’une entreprise.
4 modèles d’utilisation des data
– Modèle de l’automatisation de la micro-décision.
Ex : RTB (real-time bidding dans la publicité digitale), étiquettes électroniques pour l’affichage des prix en magasin potentiellement reliées à des données externes (comme la météo…).
Ici, l’enjeu est celui de l’intelligence artificielle et des méta-langages, du ressort des profils scientifiques hautement qualifiés pour créer ces logiciels et algorithmes.
– Modèle de l’empowerment.
Ex : Burberry, qui met à la portée de sa force de ventes en magasin les données liées à leurs clients.
Là, l’enjeu est la mise à disposition du plus grand nombre, non qualifié, d’informations issues du traitement des données. C’est donc un enjeu de visualisation, de qualité du design, de capacité de lecture rapide des tableaux de bord, pour aider l’employé ou le vendeur à mieux accomplir sa mission de vente ou de service client.
– Modèle des data-based services.
Ex : prescription et coaching. C’est la conception de services à partir des données.
– Modèle des études.
Ex : modèles et « sense-making ». C’est le modèle auquel Christophe Benavent croit le moins pour les applications Big Data.
Conclusion
– Il n’y a pas de données brutes, mais des données construites. Ce qui rappelle l’importance des sciences sociales pour donner du sens aux données, en amont et en aval.
– L’art de distribuer l’information dans l’organisation est la clé du succès (organizational learning, visualisation et démocratisation de l’information).
– Le Big problème, c’est le contrat de confiance et de légitimité :
> Privacy paradox : le statut des données en matière de droit de la propriété est assez indécis encore.
> Si usage abusif par les entreprises : risque de révolte ou de mensonge de la part des consommateurs.
– Et enfin, de l’avis de Christophe Benavent, dans toutes les applications qu’il a déjà vues sur le sujet, l’imagination n’est pas encore au pouvoir… A bon entendeur, salut !