Les 1er et 2 avril derniers se tenait la 3ème édition du salon Big Data Paris, avec nombre de retours d’expérience et de conférences adressant les non-techniciens d’entre nous, et même une série d’interventions dédiée aux usages en marketing.
Que les « big data » soient une vraie nouveauté ou un bon concept marketing qui permette au sujet d’émerger différemment dans l’espace de discussion et l’intérêt qu’il suscite auprès des entreprises, une chose est sûre néanmoins: c’est un sujet désormais démocratisé, à la portée d’un grand nombre d’entreprises même petites, avec des applications très variées où l’imagination risque plus souvent d’être la ressource manquante que la donnée ou la technologie…
En voici pour preuve les différents retours d’expérience recueillis au cours de la première journée à laquelle j’ai participé :
1. Présentation Tata Consulting Services
2. Présentation Cap Gemini: ci-dessous
3. Keynote Doug Cutting, Cloudera & co-fondateur d’Hadoop
4. Présentation de Christophe Benavent (Université Paris Ouest)
5. Amadeus Leisure Group
6. Renault et Access France
7. Vega France et Coheris
8. SFR et Sinequa
——————————————————————-
2. Présentation Cap Gemini :
par Manuel Sevilla, CTO Cap Gemini BIM
Cap Gemini a présenté de nombreux cas d’usage, sans toutefois toujours pouvoir nommer ses clients pour des raisons de confidentialité. A titre d’indication, la récente division BIM de Cap Gemini dédiée aux projets liés aux données a généré 850 Mio € de revenus en 2013…
Pour commencer, Manuel Sevilla est revenu sur la définition convenue du Big Data (3V = Volume, Variété, Vélocité), en y ajoutant quelques éclairages spécifiques :
– Volume : pas de commentaire spécifique, si ce n’est pour souligner que 80% des données mondiales sont non-structurées
– Variété : la vraie différence, aujourd’hui, sur cet aspect, est l’interconnexion du monde, ce qui change considérablement la variété d’informations à traiter, ne serait-ce que par rapport à il y a seulement quelques années
– Vélocité : la question de la vélocité est la capacité d’apporter la valeur au bon moment, car la valeur des données et donc des insights décroît chaque minute
Pour lui, il y a 3 révolutions technologiques derrière le Big Data :
1. In-memory appliance = le prix du matériel.
Le coût de la puissance mémoire est devenu ridiculement bas en quelques années seulement. Exemple cité pour illustrer : déplacer une application standard de « in-disk » vers du « in-memory » sans redesign permet une amélioration de la performance de 100 à 1000 fois supérieure. Un ratio de 1 à 100 signifie que ce qui prenait 2 minutes pour être fait peut l’être désormais en 1 seule seconde… avec tout l’impact que cela peut avoir sur la façon de travailler et les processus métier.
2. Hadoop.
Technologie gratuite, open-source, créée il y a 10 ans. Tous les éditeurs ont parié dessus, ce qui en a fait un standard de fait en termes de plateforme de gestion de la donnée. Tous les clients de Cap Gemini ont déjà adopté Hadoop ou sont en train de le faire.
3. Le Cloud.
Le cloud permet une disponibilité immédiate de puissance machine, ce qui permet entre autres la location temporaire de machines, ce qui permet de tester des choses (fail fast). Par contre selon Manuel Sevilla, la bonne réponse à la question « Dans quel cloud je vais ? (privé/public/etc.) change actuellement tous les 6 mois, selon les stratégies des acteurs, la stratégie financière de l’entreprise (Capex vs Opex) etc. Il faut néanmoins être capable d’intégrer cette agilité dans la manière de développer ses solutions.
Avant le Big Data, le monde de l’IT était divisé, grossièrement, en 2 catégories :
> Les bases de données transactionnelles (Oracle, MS…), qui permettaient de faire du « streaming data/events ».
> Les data warehouses (pour archiver les données historiques).
Aujourd’hui, grâce aux Big Data, de nouvelles solutions se rajoutent à la panoplie existante, permettant de réaliser de fait des choses impossibles auparavant : Hadoop, In-memory databases, Event Processing Tools. La réduction du coût des solutions permet également de rendre viables des cas d’usages qui ne l’étaient pas auparavant.
En résumé de cette introduction, l’innovation Big Data pour Manuel Sevilla c’est :
– Des coûts qui baissent.
– Une vitesse d’exploitation qui augmente.
– Et des insights : explosion des données analytiques avec des outils beaucoup plus exploitables, issues de multiples sources de données internes et externes.
En bref, l’agilité avec un grand A.
Ensuite, Cap Gemini a présenté de nombreux cas d’usage, dont j’ai retenu les éléments (non-techniques) suivants, à titre d’illustration des nombreuses possibilités d’application du Big Data :
– Exemple Telco :
Mise en place de technos Big Data pour optimiser la qualité de service et l’expérience client sur les services Data mobiles d’un opérateur téléphonique.
Objectif : construire un nouveau hub de données transverses sur les services Data mobiles.
Choix : rajout de Hadoop à la grosse base de données existante.
Intérêt de la solution : Hadoop permet de stocker la donnée non structurée, et la structurer dans un second temps selon des critères qui peuvent évoluer dans le temps. Par exemple, une vidéo peut être structurée selon 2 dimensions différentes, selon l’analyse souhaitée : soit faire du « speech to text » pour recueillir le contenu oral, soit analyser les couleurs des images pour un traitement publicitaire par exemple. Une base de données classique obligeant la donnée à être structurée pour l’intégrer, ne permettrait pas de retraiter le même contenu (la vidéo) ultérieurement selon un autre angle d’analyse que celui pour lequel les données ont été structurées… limitant ainsi la capacité d’analyse future.
– Exemple La Poste 2012 :
Au sein du tri, le programme de suivi des lettres ne permet de garder les données que pendant 3 jours. Or, au-delà de 3 jours, si une lettre perdue est retrouvée ensuite, ou pendant les périodes de pointe, typiquement Noël, le système ne répondait plus. Cap Gemini y a appliqué une solution intégrant un système de cache et un cluster de photos Cassandra permettant de résoudre le problème.
– Exemple Banque d’investissement :
Problème : les banques doivent connaître leur niveau de risque en début et fin de séance, mais ne peuvent le connaître tout au long de la séance.
Le projet élaboré par Cap Gemini pour une banque d’investissement permettra à cette dernière de pouvoir connaître son niveau d’exposition à tout moment en cours de séance, en temps réel. Ce qui ne manquera pas d’avoir un impact sur son business model ou ses processus internes, car autant la banque saura dans le détail ce qui se passe tout au long de la séance, autant elle ne pourra plus prétendre (cf SoGé/Jérôme Kerviel) qu’elle ne savait pas…
Cap Gemini a plusieurs projets de ce type en cours avec des banques américaines et japonaise.
– Exemple ESA (European Space Agency):
Avec la réduction du coût des satellites, les agences spatiales sont maintenant débordées de données qui elles coûtent très cher à exploiter (changement de leur business model).
Une première application de Big Data pour répondre à ce problème: l’optimisation de l’assistance aux personnes dans les zones inondées.
Solution : mise en place d’un système qui canalise les photos satellitaires reçues par l’agence et qui analyse les données du terrain pour prédire le développement et la progression des inondations. Cela permet ensuite aux sauveteurs de recevoir sur leur mobile les informations sur les zones à secourir et le chemin pour y accéder. Premières applications en Allemagne et en Autriche.
– Exemple Marché de l’emploi et du recrutement:
Volonté pour le client de Cap Gemini, acteur majeur de l’emploi en France, d’améliorer la performance de recrutement en agence, avec le souhait de représenter géographiquement les demandes et recherches d’emploi, à partir de sa base interne (1 million de CV) mais aussi des offres et informations issues de sources externes (Monster, Le Bon Coin, données publiques non structurées…)
Une application possible de ce projet : quand une maison de retraite, gros employeur potentiel, dépose un permis de construire dans une région donnée, la visibilité sur les ressources disponibles et manquantes permet d’améliorer l’offre et d’attirer les ressources à l’avance pour qu’elles soient disponibles à l’ouverture. La solution développée permet de réaliser des simulations et analyses prédictives, une analyse statique et du géodécisionnel, pour l’amélioration globale de l’attractivité auprès des candidats.
– Exemple Unilever : comment ils sont allés vers le Big Data
Unilever a décidé d’être capable de doubler son chiffre d’affaires. Mais comment lancer des campagnes globales partout, dans un groupe constitué d’entités différentes réparties partout dans le monde ? Comment valoriser la donnée au service des processus de l’entreprise ?
4 objectifs derrière le projet technologique mené avec Cap Gemini :
> Driving Consumer Intimacy
> Connecting with the Customer (le lien avec le client final ne passe plus exclusivement par la grande distribution)
> Continuous Improvement
> Enabling Agility
Cap Gemini a construit pour Unilever une plateforme technologique pendant 3 ans, en mettant en place Hadoop, alimenté à partir de la grosse Data Warehouse et associé à du Google Analytics, des données issues des réseaux sociaux, etc.
Ce qui a permis de :
i) Lier l’analyse des « sentiments » sur les réseaux sociaux aux campagnes publicitaires réalisées
ii) Regarder ensuite l’impact sur les ventes, pour un meilleur pilotage des campagnes suivantes (sur 200 pays, ce qui représente un investissement considérable à optimiser), et pour une meilleure vue concurrentielle
Prochaine étape envisagée : l’intégration des données météo (qui ont un impact certain sur la vente de nombreux produits saisonniers, comme les glaces par exemple).
– Exemple ENEL Italy : monde de la fraude
Beaucoup d’analyses et d’applications du big data sont faites dans ce domaine.
Illustration avec le cas Enel, qui représente 85% de la distribution d’électricité en Italie. Enel a mis en place des compteurs intelligents en 2001, qui envoyaient une fois par semaine la consommation constatée toutes les 15 minutes.
Le développement d’un algorithme croisant les facturations et les compteurs a permis d’améliorer l’efficacité des équipes de contrôle envoyées, faisant passer la qualité du ciblage de 25% à 75% de réussite.
En conclusion, Manuel Sevilla partage les grandes tendances actuelles selon Cap Gemini :
1. Analytics : mettre en place des « fast tracks »
> Fast analysts teams, qui permettent de sortir des rapports rapides
> PoC analysts teams, qui permettent de réaliser des prototypes rapidement, et avec un mode de financement qui se rapporche du mode service (Opex vs Capex).
2. Data Privacy : 3 niveaux
> Lois et régulations : au niveau des pays, régions, etc. Ont un impact sur les usages, les choix de stockages, l’information lifecycle management…
> Entreprise : quelle est votre stratégie de données ? Souvent le niveau le moins considéré par les entreprises, qui ne définissent pas la manière dont ils souhaitent identifier, gérer et partager leurs données
> Niveau personnel : micro-segmentation. Comment nous, en tant que clients, nous souhaitons qu’on utilise nos données, par quel canal communiquer avec l’entreprise, … et comment permettre aux clients de définir cela pour une entreprise ?
Cette contrainte liée à la gestion des données personnelles peut devenir une opportunité formidable pour une entreprise si elle est bien gérée.
Manuel Sevilla conclut en disant que le métier de l’IT est en train de passer d’un monde de processus à un monde d’agilité. D’après le Gartner, en 2015 aux Etats-Unis, les CMO (Chief Marketing Officer) auraient plus de budget IT que les DSI, grâce aux offres Cloud notamment…