Bienvenue dans le Big Data

Tough questions about the digital world, a gloomy shaping of future !

Vous avez dit: «[**Big Data*]»…? Hier, la science-fiction nous interpellait en nous faisant voir un monde où les ordinateurs domineraient les humains. Aujourd’hui la réalité a-t-elle rattrapé la fiction ? Les données ont-elles pris le contrôle de notre vie ?

Depuis l’explosion d’Internet, les données sont partout, même à des endroits où on ne les attend pas. Ce sont des volumes impressionnants de données qui sont créées quotidiennement par les particuliers, les entreprises et maintenant aussi par les machines et les objets connectés. Désormais, nous sommes automatiquement suivis, pistés, classés par catégories, enregistrés. A chacune de nos innombrables connections quotidiennes, nous dévoilons un peu plus notre intimité. On sait tout de nous, de nos préférences, de nos espoirs. Alors bienvenue dans le [**Big Data*] !

La numérisation d’un nombre croissant de nos activités a donné naissance à un monde de signaux, à une société informationnelle. Nos activités, nos préférences, nos relations sociales, nos achats, nos désirs deviennent des données qu’il est possible et aisé de collecter. Leur croisement permet ensuite d’avoir une connaissance complète de notre être passé, présent et futur afin de mieux exploiter toutes les opportunités que nous offrons, gérer tous les risques que nous présentons. En effet, nos actions, nos comportements, nos décisions disent énormément de nous. Des choses aussi banales qu’une recherche sur Internet, une relation sociale ou une localisation GPS peuvent révéler nos goûts, notre personnalité, nos préoccupations, ambitions ou croyances.
Lorsque nous naviguons sur le web, nous laissons derrière nous des traces numériques. Depuis quelques années, ces traces connaissent une croissance exponentielle et forment un amas monumental de données. Le Big Data est le terme utilisé pour décrire notre capacité à donner un sens aux volumes de données qui ne cessent de croître dans le monde. Il y a quelques années, les données étaient essentiellement compilées dans des bases de données dites structurées, dans lesquelles il était simple de chercher, classer, réaliser des traitements statistiques. Mais voici que sont apparus en masse d’autres types de données, non structurées, comme par exemple des textes bureautiques, mails, SMS, fichiers multimédia, contenus web, réseaux sociaux, tweets, etc.

L’explosion quantitative des données numériques a amené les spécialistes à trouver de nouvelles manières de voir et d’analyser le monde. Depuis plus d’une dizaine d’années, il existe une nouvelle génération d’algorithmes ultra complexes et parfaitement opaques qui permettent de gérer ces données pratiquement en temps réel. Ainsi est né le Big Data. Il s’agit d’un concept permettant de stocker un nombre indicible d’informations sur une base numérique, d’analyser ces immenses bases de données en faisant tourner des algorithmes qui vont traquer le plus infime lien entre chacun des éléments stockés, puis livrer les informations en quelques dixièmes de seconde (sur ce sujet lire dans Wukali : L’incalculable pouvoir prométhéen des algorithmes). Pour ce nouveau mode de stockage, on applique les règles des [**3 V*], c’est-à-dire le volume : il faut stocker énormément d’informations, la variété : il faut stocker beaucoup de données de toutes sortes et la vélocité : il faut pouvoir accéder rapidement à toutes ces données.

Le[** volume*] est évidemment la première caractéristique qui vient à l’esprit quand on parle de Big Data. Ce volume concerne les quantités de données générées chaque seconde. Il suffit de penser à tous les e-mails, tweets, photos, vidéos, les données des capteurs que nous produisons et partageons chaque seconde. Avec le Big Data, nous pouvons stocker et utiliser ces jeux de données à l’aide de systèmes distribués dans lesquels toutes les parties des données sont stockées dans différents endroits puis rassemblées grâce à un logiciel. Nous générons plus de données que jamais auparavant. Chaque seconde, [**29.000 Gigaoctets (Go)*] d’informations sont publiés dans le monde, soit[** 2,5 exaoctets par jour*]. Il est évident que les bases de données et outils de gestion traditionnels ne sont pas capables de gérer de telles quantités de données.

En [**2000*], [**20 %*] de l’information était numérique tout le reste était analogique. En [**2015*], [**98 %*] de l’information est numérique. Plus de 90 % des données dans le monde ont été créées au cours des deux dernières années. De plus en plus connectés et de plus en plus nomades, nous émettons en effet un volume de données toujours plus important, nous multiplions les traces de toutes sortes, dont l’historique se conserve de mieux en mieux, grâce à des capacités de stockage qui se sont elles aussi accrues.

La[** variété*] fait référence aux différents types de données que nous pouvons utiliser. Dans le passé, nous nous sommes appuyés principalement sur des données structurées. Le type de données que nous pouvons mettre en tables est soigneusement organisé, telles les transactions de vente par client, région, etc. Les données non structurées, comme par exemple des fichiers texte, des photos, du contenu vidéo, etc. étaient en grande partie ignorées. La montée en puissance des données non structurées va de pair avec une diversification des formats et des types de données. Aujourd’hui, nous avons la possibilité d’utiliser et d’analyser une grande variété de données, y compris le texte écrit, les paroles, même le ton de notre voix, ainsi que des données biométriques, des photographies, du contenu vidéo mais également des informations émises par les terminaux mobiles ou issues des interactions [**M2M*] (Machine To Machine). Nous disposons autour de nous d’une variété toujours plus grande d’objets connectés, du réfrigérateur à la voiture en passant par le smartphone ou la tablette, nos sources de données se multiplient et donnent sur nous, notre mode de vie et nos habitudes, des renseignements précieux.

La [**vélocité*] du Big Data représente le temps nécessaire pour que les données soient collectées, traitées et activées. Pensez juste aux messages sur les réseaux sociaux qui deviennent viraux en quelques secondes. Pensez également à toutes les recherches sur le Web (environ [**3,5 milliards de recherches par jour pour Google*]), toutes les données de capteur recueillies, toutes les transactions par cartes de crédit, toutes les données de localisation du téléphone mobile, etc. Le Big Data nous permet aujourd’hui d’analyser les données pendant qu’elles sont générées, sans avoir à les analyser dans des bases de données. [**Le monde digital est désormais plus rapide que le temps réel et les données n’échappent pas à cette tendance*]. Elles sont produites, capturées, traitées et partagées à une vitesse inédite. La vitesse à laquelle nous générons de nouvelles données et celle à laquelle les données se déplacent sont phénoménales. Chaque minute, nous envoyons plus de 200 millions d’e-mails, cliquons sur près de 2 millions de profils sur Facebook, envoyons près de 300 000 tweets et jusqu’à 200 000 photos sur Facebook, ainsi que 400 heures de vidéo sur YouTube. Le traitement simultané de ces données est toujours plus rapide, les informations circulent de plus en plus vite, émises par des sources souvent interconnectées et qui dressent de chacun d’entre nous un profil toujours plus précis.

Le Big Data désigne en effet des ensembles massifs de données multi-variées et accumulées à des vitesses sans précédent sur les individus, et même sur les organisations, via le web, les réseaux sociaux, et maintenant avec de plus en plus de capteurs contribuant à ce qu’on appelle déjà l’internet des objets. Les données sont présentées comme le nouvel or noir du XXIème siècle.

En réalité, la donnée brute est de peu de valeur. Ce n’est qu’une fois nettoyée, classifiée puis corrélée que la donnée devient utile et précieuse. Une nouvelle science pluridisciplinaire est née, la Data Science pour traiter et valoriser ces Big Data, depuis leur collecte, en passant par leur traitement jusqu’à leur structuration en bases de données de formes totalement nouvelles. C’est en quelque sorte la pétrochimie du digital, dont le but est de raffiner les Big Data « bruts » en Smart Data, c’est-à-dire en données pertinentes pour la problématique « business » où on cherche à prédire les événements clés, comme l’achat d’un produit par un prospect ou son appétence à choisir un produit plutôt qu’un autre. Cette Data Science ne confond plus corrélation et causalité, car les événements qu’elle cherche à prédire sont souvent des événements très rares. Tellement rares que cela s’apparente à rechercher une aiguille dans des bottes de foin. Pour rendre ces prédictions possibles, la Data Science a maintenant recours à des algorithmes d’apprentissage automatique, également appelés Machine Learning, qui ont la faculté de s’auto-organiser pour améliorer par eux-mêmes leur pouvoir prédictif et discriminant ( Sur ce sujet, lire dans Wukali : Intelligence artificielle, point de synthèse et La Singularité, bienvenue dans le futur.

Mais ces algorithmes sont également gourmands en puissance de calcul, si bien que des géants comme[** Google*] ont mis au point, il y a quelques années déjà, des architectures de calculs parallèles et distribués. Si l’on revient à notre analogie de « l’aiguille dans des bottes de foin », ces algorithmes permettent de rechercher l’aiguille simultanément sur les différentes bottes de foin, éventuellement en les divisant encore en bottes plus petites, plutôt que de toutes les agréger et de rechercher ensuite l’aiguille dans le gros amas de foin résultant de cette agrégation. Ces algorithmes, aux noms de MapReduce, Hadoop, SparkÉ, constituent de véritables sésames à l’emploi pour le Data Scientist.

[**Google*] et [**Facebook*] ont très vite été confrontés à l’afflux d’informations et se sont posés des questions sur la meilleure manière de le gérer. C’est certainement pour cette raison qu’ils sont deux initiateurs des technologies qui structurent aujourd’hui le marché du Big Data. Et en conséquence, ils sont en tête des entreprises qui savent traiter d’importants volumes de données en temps réel (pour cela les spécialistes de la question utilisent la technologie de Base de données In Memory), données en provenance sources multiples (non-structurées type NoSQL, ou structurées en base de données classiques (type SQL).

Cependant un traitement si massif de données ne se conçoit qu’à l’aide d’une infrastructure adéquate, et souvent dédiée. Les géants du web utilisent donc des fermes de serveurs à l’architecture massivement parallèle, créant des centaines, voire milliers de nœuds de calcul. Hadoop est une des architectures les plus connues (elle est open source) dans ce domaine.

[(
– Chaque jour dans le monde, nous échangeons plus de [**215 milliards d’emails,*] envoyons plus de [**17 milliards SMS*], plus de[** 504 millions tweets*] et jusqu’à [**200 millions photos*] sont déposées sur [**Facebook*] ainsi que 5,7 milliards de « like » et 3,7 milliards de « like » d'[**Instagram*] et plus de[** 4 millions d’heures*] de contenu téléchargées sur [**Youtube*] etc.

– Depuis 2011, la population mondiale globale de personnes utilisant l’Internet a augmenté de 60 % et est passée de [**2 milliards d’internautes*] à [**plus de 3,4 milliards*] en 2016. Dans les cinq années à venir, il y aura plus de[** 50 milliards d’objets*] connectés en circulation dans le monde, développés pour collecter, analyser, et partager les données.

– On estime qu’il y a actuellement plus de [**4,4 milliards d’utilisateurs mobiles*] dans le monde entier sur les [**7,5 milliards d’habitants*].

– L’an dernier, près de [**1,4 milliard de smartphones*] ont été vendus. Chacun de ces appareils embarque des capteurs capables de collecter toutes sortes de données, sans parler des données que les usagers créent eux-mêmes.

– En [**2015,*] un [**billion de photos*] (mille milliards) ont été prises, et des milliards d’entre elles ont été partagées en ligne. En[** 2017*], près de [**80 %*] des photos seront prises à l’aide de smartphones.

– En [**2020*], on comptera plus de [**6,1 milliards d’utilisateurs de smartphones*] dans le monde.

– Et sur nos mobiles que se passe-t-il en 1 minute ? Source des données en temps réel, voir le document en ligne Dealsunny

– En ce moment même, moins de 5 % de toutes les données sont analysées et utilisées.)]

[**Qui sait exploiter ces données, et à quelles fins ?*]

Nous trouverons les états qui, depuis la nuit des temps, cherchent à contrôler d’une façon ou d’une autre leur population, leur influence dans le monde, à se protéger des menaces. Dans ce cas, le Big Data peut être perçu comme le « Big Brother », le projet PRISM américain de la[** NSA*] et du [**FBI*] en est un exemple. Mais aussi les entreprises, celles qui ont les moyens d’investir dans cette transformation du Big Data (données brutes) en Smart Data (données analysées, corrélées qui vont permettre le cycle de décisions et actions, qui est de plus en plus automatisé, via des moteurs de recommandations), vont pouvoir utiliser nos données personnelles afin d’offrir des produits, des services plus ciblés.

Le champ d’application du « Big Data » est vaste, les objets connectés sont en train de le révolutionner ([**25 milliards d’objets connectés en 2015*]), des nouveaux services vont voir le jour (la domotique, la santé…), qui utiliseront de plus en plus de données personnelles, et il sera difficile d’y échapper. Nous devons passer d’une inconscience digitale (j’agis dans le monde digital, sans me préoccuper de l’exploitation de « mes données » par des tiers), à une conscience digitale (je comprends que mes actions, dans le monde digital peuvent faire l’objet d’analyses à travers de mes données.
Nous avons les moyens de gérer cette influence du Big Data, nous devons être vigilants (refus des cookies, de la géolocalisation, l’utilisation d’alias d’adresse mail…). Il nous faudra exiger des personnes avec qui nous aurons établi une relation de confiance, la transparence sur nos données et leurs finalités.

Nous sommes encore loin d’avoir saisi pleinement la rapidité, l’ampleur du Big Data. Ainsi, des possibilités infinies s’ouvrent dès lors que des milliards de personnes sont connectés sur des appareils mobiles, offrant une puissance de traitement, des capacités de stockage et un accès à l’information sans précédent.

On ne peut être qu’inquiet par cette déclaration d’[**Eric Schmidt*], Président du conseil d’administration de [**Google*], au sujet des prochaines années : « La technologie aura tellement évolué qu’il sera difficile pour les gens de regarder ou de consommer quoi que ce soit sans que cela ait été, d’une façon ou d’une autre, pensé pour eux ».

[**Cathy O’Neil*] est une data scientist. Docteur en mathématique de [**Harvard,*] elle vient de publier un livre intitulé Weapons of Math Destruction (Armes de destruction matheuses) expliquant comment les Big Data augmentent les inégalités et menacent la démocratie, comme le soulignait une récente interview d’elle dans Rue89. Elle a beau être une spécialiste des données et de leurs traitements, elle n’en est pas moins très sceptique et critique sur l’utilisation que nous en faisons.

Aujourd’hui toutefois, l’humanisme perd peu à peu ses avantages pratiques. L’humanité est à la convergence de deux vagues scientifiques. D’un côté, les biologistes déchiffrent les mystères du corps humain, et plus particulièrement ceux du cerveau et des sentiments humains. D’un autre côté, les informaticiens et les Data Scientists détiennent désormais un pouvoir de traitement de données sans précédent. L’association de ces deux sciences permet de créer des systèmes externes capables de surveiller et de comprendre nos sentiments mieux que nous-mêmes. Une fois que les systèmes Big Data nous connaîtront mieux que nous ne nous connaissons nous-mêmes, l’autorité passera des humains aux algorithmes. Le Big Data pourra alors devenir le Big Brother !

[**Palantir*]

*Contact *] : [redaction@wukali.com
WUKALI 16/08/2017 (Précédemment publié le 27/01/2017)

L’ Ex-Prince Andrew s’invite au Louvre

L’autre front de l’intelligence artificielle

Faire de la France une démocratie, le regard…

Vladimir Poutine et ses Inglorious Bastards

Boualem Sansal pris en otage par les autorités…

Caricature de Vladimir Poutine en animation

Rien ne sera désormais plus comme avant !

Réflexions autour de la science et des avancées…

L’art dans tous ses états, pour un monde…

Réflexions sur les concepts de justice et de…

Festival International de Piano de La Roque d’Anthéron…

Preljocaj réenchante Le Lac des Cygnes à Aix-en-Provence

Indiscrétions sur le Festival d’Aix-en-Provence 2026

Ludovic, film documentaire sur le baryton français Ludovic…

Laurence Equilbey dirige le Requiem allemand

Aix et le Cercle de l’Harmonie de Jérémie…

Le Cercle de l’Harmonie et Jérémie Rhorer font…

Un Guarneri del Gesù sous le feu des…

Café Zimmermann au TJP à Aix-en-Provence

Marie-Ange Nguci au piano assure la direction du…