dimanche, septembre 02, 2012

L'importance de la pensée systémique quantitative pour le Big Data

Introduction

Le constat que l'hyper-développement d'Internet et du Web permet aujourd'hui la production et le stockage de quantités inouïes de données est devenu une banalité évidente. L'ingéniosité linguistique du marketing américain n'a guère tardé à forger un raccourci : « Big Data », à la saisissante concision, pour circonvenir ce processus (#).

 

Facebook digère quotidiennement 2,5 millions de « contenus », plus de 500 téraoctets (10 puissance 12) de données (#), et s'enorgueillissait récemment d'opérer le plus gros cluster Hadoop de la planète (100 petaoctets, 10 puissance 17). Le Sloan Digital Sky Survey (#) lancé en 2000 collecte plus de 200 gigaoctets de données astronomiques par nuit, toutes accessibles sur le Net. La découverte du boson de Higgs (#) atteint à de nouveaux records de volume de données scientifiques. Le système automatisé de détection de fraude de FICO (#) travaille sur 2,1 milliards de comptes en ligne — son l'infrastructure (Decision Management Architecture) est, par acquisition et intégration successives, un avatar bien lointain et singulièrement enrichi de la modeste contribution technologique aux systèmes experts de la startup paléo-historique co-fondé par l'auteur de ces lignes, Neuron Data. La recherche biologique et médicale produit couramment des petaoctets de données liées aux génomes, protéomes, métabolomes et autres « multi-omes » dont l'intégration (#) et la visualisation (#) deviennent problématiques. La grande distribution traite des millions de transactions par heure en ligne (#). Et les rythmes s'accélèrent de jour en jour.

 

La réponse actuelle au déluge des données est essentiellement de nature technologique (computational) : une expérimentation frénétique et la mise au point de méthodes combinatoires et algorithmiques, où l'unité est le milliard (#) adaptées à ce nouveau contexte quantitatif. Elle n'est nulle part plus apparente que dans le renouveau de la recherche théorique d'une part sur les thèmes du stockage, de l'optimisation et de la transmission au coeur de l'infrastructure naissante du cloud computing, et, d'autre part, sur la formalisation logique et mathématique d'algorithmes que l'on sait d'avance indispensables à la phase d'analyse des données que le mouvement Big Data inaugure. Prosaïquement, le succès croissant de R (#) est un bon indicateur (statistique !) de cette réponse.

 

S'il est indéniable que cette compréhension du phénomène Big Data et de son impact est très importante, elle n'en reste pas moins insatisfaisante par sa paradoxale étroitesse de vue. Ne faudrait-il pas, en effet, viser à un modèle conceptuel de l'intégration à toutes les échelles, de celle de l'octet matériel, de la donnée atomisée, peut-être anonyme, à celle de l'agent individuel qui la produit ou la consomme, jusqu'à celles du groupe, de la société, de l'écosystème dans lesquels ces agents eux-mêmes interagissent ? Les Big Data éclairent crûment le problème de la modélisation de la complexité à toutes les échelles. Ne signaleraient-elles pas ainsi le déploiement à venir d'une pensée systémique dont les racines plongent, comme elles, dans l'histoire même de la technique ?

 

Un canevas théorique pour le stockage et le calcul réparti

En octobre 1986, la congestion brutale de NSFNet — la phase expérimentale de la colonne vertébrale d'Internet, le réseau backbone — qui voyait brutalement son débit chuter de 32 kbits/s à 40 bits/s (#), provoquait l'effondrement le l'Internet naissant. Le vénérable protocole TCP/IP qui jusqu'à nos jours continue de servir la transmission des paquets de données sur le Net cherche à réconcilier les objectifs contradictoires de l'utilisation maximale des canaux de transmission — maintenir « en vol » le plus grand nombre de paquets — et de minimiser le délai de transmission de bout en bout — (et retour) : la « latence » perçue par les utilisateurs. Entre points de départ et de destination, le goulot d'étranglement est constitué par le lien de transmission de plus faible débit. À mesure que l'on augmente le nombre de paquets en vol, le débit général augmente et le délai de transmission reste rapide, puis une fois le débit du goulot d'étranglement atteint le débit reste fixe et les délais se mettent à augmenter. Les paquets s'empilent dans des mémoires cache présentes à chacun des noeuds du réseau en attente de leur transmission sur le lien suivant. Une fois ces mémoires cache pleines, les paquets entrants sont rejetés provoquant des ré-émissions en rafales et la congestion se produit de façon épidémique. Ces difficultés conduisirent à la mise en place d'algorithmes nouveaux de gestion des mémoires cache, connus sous le nom d'active queue management, et, en particulier, de l'algorithme dit random early detection de Van Jacobson et Floyd (#).

 

Cet épisode est une illustration typique d'une machine à feedback complexe nous ramènerait directement aux balbutiements de la cybernétique de Norbert Wiener (1894-1964) du Communication and Control in the Animal and in the Machine, qui se caractérise, d'une part, par « la biologisation de la machine et la mécanisation de la biologie » comme dit Seymour Papert (Épistémologie de la cybernétique) et, d'autre part, par le passage d'un modèle de la machine dont le fonctionnement est dominé par la transformation et la transmission d'énergie à celui dans lequel, à côté de ce flux d'énergie, apparaît un flux d'information qui devient progressivement plus important — jusqu'à réduire les échanges énergétiques à un rôle auxiliaire. On peut alors voir dans le logiciel et notamment dans les logiciels répartis iconiques du cloud computing, MapReduce, Hadoop, Pregel, machines virtuelles, bases de données NoSQL, des expressions particulièrement développées de ces machines informationnelles.

 

Notons qu'en raison du peu de discipline dans l'upgrade des algorithmes d'AQM dans les routeurs du Net et de l'accroissement massif des mémoires cache, rendu possible par la volonté mal encadrée de diminuer le nombre de paquets rejetés et par le prix décroissant de la mémoire physique ; mémoires cache maintenant proliférantes dans tous les équipements terminaux et coeur de réseau, on constate à nouveau des problèmes de congestion massive après une période d'accalmie temporaire (#).

 

C'est une forme de la malédiction de la non-linéarité dont les études originelles dans les domaines de la mathématique de la physique des turbulences, de l'hydrodynamique et de l'évolution des populations en biologie et en sciences de l'environnement ont donné naissance à la théorie des comportements chaotiques, véritable succès des sciences de la complexité. (cf. Stuart Kauffman, Mitchell Waldrop, Melanie Mitchell pour des exposés récents.)

 

Et de fait ce sont les simulations sur ordinateur qui, dès l'origine, ont eu la plus grande influence sur les début du développement des sciences de la complexité. Enracinées dans les travaux fondamentaux et transdisciplinaires de l'IAS de Princeton, comme le raconte George Dyson dans Turing's Cathedral. C'est sur ce campus, prolongement séculier de l'univers mental de John von Neumann (1903-1957) où séjournèrent Einstein, Turing, Borel, Gödel, Weyl, Atiyah et tant d'autres, que se constituèrent les bases modernes de la compréhension de la programmation, des automates et de l'ordinateur, des réseaux de télécommunications, des mathématiques de la complexité et des réseaux et de leurs applications à la sociologie et à l'économie aussi bien qu'à la physique quantique et à la biologie.

 

Les sciences de la complexité montrent que la formidable diversité et le comportement complexe des systèmes adaptatifs à l'échelle globale, y compris l'émergence de structure à plusieurs échelles et d'une organisation individuelle, peuvent émaner de règles très simples régissant les interactions des constituants de ces systèmes. Cette confirmation d'abord expérimentale, appuyée sur des simulations par ordinateur, stimulant un renouveau de recherches théoriques d'inspiration mathématique et biologique est aujourd'hui à l'oeuvre dans des secteurs aussi variés que la biologie et les sciences de la santé, la sociologie et l'économie.

 

Si cette approche épistémique du phénomène actuel des Big Data est correcte elle met en avant une mise en abyme de la machine, substrat des simulations de systèmes vus eux-mêmes comme des machines pour accéder à une compréhension de l'objet technique universel qu'elle représente. Des idées tout à fait dans la lignée des projets de théorie des machines de pionniers français dont l'oeuvre peu connue aujourd'hui mériterait une nouvelle visite à la lueur de la maturité des sciences du complexe : Jacques Lafitte (1884-1966) et la « mécanologie » (publiée en 1932), Louis Couffignal (1902-1966) préfigurant l'analyse fonctionnelle de Wiener dès 1938, Jacques Riguet et la théorie algébrique des machines. Ce dernier fut d'ailleurs proche de Benoît Mandelbrot (1924-2010) et de William Ross Ashby (1903-1972) tous deux grands contributeurs à l'école de cybernétique américaine et dont l'influence est présente dans les sciences de la complexité. « Sous l'influence des progrès des sciences mécaniques et physiques, [...] la machine,d'abord considérée comme un transformateur de mouvement, s'est trouvée successivement considérée comme un transformateur de forces, puis d'énergie. Il est aisé de voir que ces définitions différentes reposent toutes sur la considération de certains phénomènes dont la machine est le siège, et non sur la considération de la machine elle-même en tant que phénomène » écrit, par exemple, Lafitte en 1932. C'est donc bien la mise en abyme qui constitue le moment fondamental de la modélisation dans l'essai de théorisation des machines.

 

Universalité du changement d'échelle dans les réseaux

Pour poursuivre dans cette direction, le cadre théorique qui manque aujourd'hui pour comprendre les Big Data et, en particulier, les mettre au service de la prédiction (#), serait à chercher dans dans certains résultats des sciences de la complexité, notamment dans les lois d'échelle issues des recherches académiques récentes dans ce domaine.

 

L'exemple de l'utilisation du moteur de recherches de Google pour le suivi et la prédiction de la diffusion de la grippe sont maintenant bien connus (#). La corrélation entre haut PNB et ratio élevé de requêtes Google liées à l'avenir sur celles liées au passé ont également fait l'objet d'une analyse étayée (#). Global Pulse (#) des Nations Unies est un projet d'exploitation des qualités prédictives des Big Data pour le développement humain dans les régions défavorisées. Et les réseaux sociaux deviennent des champs d'études sociologiques théoriques sans même avoir à visiter les Tristes Tropiques (réalisant le fameux « je hais les voyages » que plaçait d'ailleurs Claude Levi-Strauss (1908-2009) en guise d'incipit à ces mémoires).

 

La demande de cadre théorique est devenue tellement pressante devant le rythme de l'accumulation des Big Data, que pour l'analyste le choix même du modèle statistique pertinent à appliquer pour exploiter le tsunami de données est en train de devenir elle-même une question préalable de « méta modélisation » théorique complexe ! Un travail de Schwartz, Bradlow et Fader, de l'Université de Pennsylvanie publié en juin dernier (#), par exemple, pose la question de quel modèle statistique choisir pour analyser un jeu de données de grand volume dans un objectif business explicitement énoncé ? On franchit ici une étape supplémentaire sur le chemin des Simulacres et Simulations de Jean Baudrillard.

 

Qu'apporte ici le canevas théorique esquissé ci-dessus ? Sans rentrer dans le détail mathématique de leur formalisation, dont la genèse est en soi pleine d'enseignement, nous nous contenterons de citer quelques illustrations de l'universalité de ces lois de changement d'échelle et d'indiquer leurs connivences avec les Big Data.

 

Un premier fil conducteur mathématique mène des processus stochastiques, étudiés, entre autres, par Paul Lévy (1886-1971), à la méthode d'analyse des transducteurs de Wiener, puis, par le détour de Claude Shannon (1916-2001), un autre éminent visiteur de l'IAS en 1940, et de sa théorie de l'information, à la théorie actuelle de la « mécanique computationelle » — si l'on me permet un néologisme mot à mot traduit, meilleur que la mécanique du calcul — de James Crutchfield (#) à UC Davis et au Santa Fe Institute. Le monstre chaotique, qui a triomphé du déterminisme strict de Pierre-Simon Laplace (1749-1827), a donc enfanté une quantification viable des motifs et des correspondances (patterns) dans la structure des données. Ces outils quantitatifs nouveaux révèlent l'information et, partant, promettent l'accès aux connaissances, que codent les flux massifs de données d'aujourd'hui.

 

Un second fil conducteur est celui de la modernisation de la théorie des graphes, une affaire presque entièrement due à des mathématiciens hongrois de premier plan (#) — Paul Erdős (1913-1993), Endre Szemerédi, Dénes Kőnig (1884-1944), Gyulia Katona, Béla Bollobás, Zoltán Füredi, Alfréd Rényi (1921-1970) parmi d'autres. Au long de cette tresse on trouve l'émergence systématique d'un composant connexe géant dans le modèle de croissance des graphes aléatoires (#) — modèle dans lequel on connecte au hasard deux sommets parmi les n avec une probabilité donnée p, et dont le comportement à la limite des n très grands montre des changements abrupts en fonction de p totalement inattendus. Le second résultat est celui de la prédominance des power laws (lois de puissances) à toutes les échelles dans de nombreuses manifestations de l'évolution ou de l'adaptation de systèmes complexes : réseaux scale-free de Barabási-Albert (#) qui expliquent la croissance d'Internet, du Web, des réseaux sociaux, des interactions entre protéines, des réseaux de transport aérien, etc. ; réseaux small-world de Watts et Strogatz (#) dans les réseaux de neurones, de collaboration d'auteurs de papiers académiques ou d'acteurs dans des films, de relations sociales, etc. (#) ; la loi de Kleiber, du biologiste Max Kleiber (1893-1976) et les modèles (fractals) d'échelle allométriques (#) (#) en biologie, théorie des populations et écosystèmes ; les limites physiques des théories de l'information (#).

 

Cette universalité apparente que l'on lit aujourd'hui dans les Big Data n'est pas non plus sans poser des questions qui, traduites dans le vocabulaire du jour, tournent autour de la sécurité des données, notamment du fichage et du flicage des données privées, de l'identité numérique et du délitement de l'esprit scientifique de synthèse. Cette critique, voire cette contre-réaction, avait été étudiée par Gilbert Simondon (1924-1989) qui s'interrogeait (#) déjà sur Le Mode d'existence des objets techniques et sur le malaise de ses contemporains envers la technique, allant jusqu'à la technophobie ou la technofolie (L'individuation psychique et collective).

 

Conclusions

Le sillage apparent des vagues scélérates Big Data semble porter une tendance réductionniste (#). L'instrumentation matérielle, stockage et transmission, et logicielle, traitements distribués, des Big Data sont les premiers efforts visibles produits pour ramener le complexe au simple (#). Mais cet outillage, pour important et indispensable qu'il soit, n'est que cela, instrumental, dans l'élaboration d'un cadre théorique englobant la complexité des phénomènes dont les Big Data sont la manifestation. Pour accéder à une véritable connaissance scientifique sur la base des Big Data, il faudra certainement un canevas qui embrasse frontalement des notions constructivistes et l'élaboration progressive — parfois abrupte comme dans l'émergence de comportements globaux — des structures. Les résultats récents obtenus par les sciences de la complexité, plus peut-être que la statistique traditionnelle — cf. Cosma Shalizi (#) et les deux cultures de la modélisation statistique de Leo Breiman (1928-2005) (#) — pourraient fournir ce cadre conceptuel dont le défaut se fait jour.

 

ShareThis