Aujourd'hui le Big Data, c'est vous ! Nous sommes témoins de la résurrection de la doctrine du Cercle de Vienne (#) mais appliquée, plus d'un siècle plus tard, à soi-même : « self knowledge by numbers » annonce dogmatiquement le site Quantified Self (#). La qualité de vie par la quantification individuelle ! Voilà le slogan hygiéniste New Age, collision allégorique du développement durable et de la Mécanique quantique ! L'ambiguïté du mot d'ordre dévoile tout : la connaissance de soi par la mesure — plus précisément par l'automesure (#), notamment de ses propres paramètres médicaux avec un objectif de « santé » parfaitement louable — c'est aussi les renseignements personnels en grand nombre — avec une inévitable analogie Big Data, Big Brother d'où sourdent de sombres images.
La miniaturisation des capteurs et leur connexion systématique au Net nous permet, en effet littéralement, de nous habiller d'un tissu de points de mesure communicants, capables d'émettre continûment les flux de nombres qui définiraient votre moi. C'est l'entrée de plain-pied dans le cyberspace, naguère encore territoire de la science-fiction. Et l'inversion de point de vue est toute proche : bientôt vous ne serez pas autre chose que ce cordon de flux de données corrélés, ce brouillard statistique de régressions linéaires en devenir, dernier avatar technique du supplément d'âme bergsonien (#). De la surveillance panoptique de tous vos paramètres vitaux, de votre activité physique quotidienne (#) jusqu'à la cinétique des plus petites molécules (#), de l'apoptose de vos cellules (#) à la carte de votre génome personnel (# en couleurs reconstituées et disponibles en plusieurs formats pratiques et bon marché), tout, vous saurez tout sur vous. L'ordinateur individuel s'efface bien devant l'individu devenu ordinateur.
D'autant plus, que l'ordinateur individuel, quant à lui, met le Big Data à la portée de tous. Une nouvelle génération d'outils informatiques point qui menace de reléguer au rang darwinien de dinosaure les algorithmes fondateurs de la discipline, comme Hadoop (#) et Pregel (#), tous grands prédateurs de l'habitat datacenter. Aujourd'hui tant rapides sont les progrès des technologies de stockage et de parallélisation que plus besoin de teraflop (Teratophoneus Data) pour analyser les Big Data, un simple PC suffit amplement à la tâche (#).
GraphChi (#), par exemple, emploie un algorithme novateur pour effectuer les calculs sur des très grands graphes — de l'ordre du milliard de sommets — sur le simple disque dur ou la mémoire SSD d'un modeste PC actuel. Shark (#) met le turbo à vos requêtes analytiques, 5 à 10 fois plus rapide sur disque que Hive, Hadoop ou que les plus rapides des bases de données massivement parallèles, 100 fois plus véloce sur SSD ! Julia (#) un nouveau langage de programmation pour les applications techniques et scientifiques (#) promettrait de laisser son grand frère R — qui connaît pourtant un succès grandissant, porté par les Big Data — dans les starting blocks. Les tsunamis de trillions de points de séries temporelles sont traités au vol par les nouveaux algorithmes dits de « dynamic time warping » (#) — c'est beau comme du StarTrek ! Bref la panoplie complète du data scientist arrive sur votre PC (#), le Big Data pour tous et à chacun son Big Data.
Nous ne reviendons pas sur la position épistémologique qui sous-tend cette ruée vers le Big Data — nous l'avons déjà évoquée dans ces colonnes (#, #) — mais constatons simplement que l'on n'a pas fini de parler des données et de l'ordinateur toujours aussi individuels après ces trente-cinq premières années.
(Et bon anniversaire à
rms
, 60 ans aujourd'hui !)Par Jean-Marie Chauvet. Le 16 mars 2013.