samedi, novembre 20, 2010

La République Démocratique des Données


La donnée, dit le Littré, est un point sur lequel on fonde un raisonnement. (C'est également, dans un sens quelque peu désuet — quoique, voir la Loi de Finances 2011 —, une distribution d'argent faite aux pauvres : «  Plus la donnée avait été nombreuse, plus la charcutière était aise  », Saint-Simon.) Dans sa forme moderne, « la représentation d'une information sous une forme conventionnelle destinée à faciliter son traitement », la donnée se détache de la perception immédiate et du caractère d'observation incontestable qui étayait la raison. Dans la « convention » et la « facilitation du traitement » qui priment maintenant au dépens de l'exercice de la faculté rationnelle, point alors comme une sourde menace.

 



La facilitation du traitement était encore, il y a peu, un objectif considéré comme difficile à atteindre dans le contexte de l'explosion de la production de données liée à l'hypercroissance du Web et la multiplication des terminaux connectés. En comparaison, les tabulatrices de la Deutsche Hollerith-Maschinen Gesellschaft mbH (Dehomag), les trieuses de la Hollerith (« Übersicht mit Hollerith Lochkarten »), les interclasseuses et les perforatrices d'IBM étaient de bien meilleures « facilitatrices » de l'avènement des totalitarismes aux lendemains chantants du court vingtième siècle. Mais les technologues de l'époque contemporaine y travaillent activement.

 



Prenons Talend, l'éditeur français Open Source, qui vient de boucler une phénoménale levée de fonds de $34m — dans un marché du private equity early stage notoirement moribond — et annonce simultanément l'acquisition de l'allemand Sopera, un spécialiste de l'intégration d'applications d'entreprise. En janvier 2009, Talend avait déjà réussi le tour de force de lever $12m auprès des fonds de Balderton Capital et d'AGF Private Equity, et d'attirer à son Conseil d'administration Bernard Liautaud, jeune retraité de BO, bienheureusement préservé de la réforme nationale sous les dorures rassérénantes de Balderton sis dans les plus chics quartiers de la fiscalement accueillante capitale britannique. Talend est la star montante de la transformation des données (ETL), de la gestion des données de référence (Master Data Management, MDM, avec le rachat des actifs d'Amalto Technologies en 2009) et, depuis peu, de l'intégration des données. Comme Pentaho — $32m levés en quatre tours de financement depuis août 2005 — et Jaspersoft — $24,5m levés en 2007-8 pour son quatrième tour de table — Talend fait partie des pionniers des défenseurs de la démocratisation du traitement facilité des données, qui pratiquent un Open Source militant visant à une « facilitation » par et pour le plus grand nombre.

 



C'est également la démocratie qui est invoquée aux États-Unis comme auspices du site http://www.data.gov/ mis en place par l'administration américaine pour « faciliter l'accès du public aux jeux de données de grande valeur, tout prêts pour le traitement automatique, produits par la branche exécutive du gouvernement fédéral ». Là-bas le discours politique se drape des vertus de la transparence devenue inattaquable, quant aux principes, dans la bien-pensance narcotique de L'Empire du Bien. (Il est vrai que l'opacité semblait plutôt la règle que l'exception et depuis fort longtemps.) Mais la transparence n'est pas non plus sans le péril d'un intégrisme insidieux comme nous en alertait Lawrence Lessig, il y a déjà quelques années.

 



De plus, la touche sociale de rigueur du site invite les citoyens à participer au gouvernement en pratiquant leurs propres analyses de données, en conduisant leurs propres recherches et enquêtes sur la base des données fédérales facilement accessibles et mécanisables. À croire que la dissémination sur Internet d'outils techniques comme le langage R, les algorithmes de calcul massivement réparti comme Hadoop, Mahout, ou la Google Prediction API, les infrastructures de gestion de grands volumes de données sur le cloud, comme Azure, EC2/S3, BigQuery, et leurs indispensables outils de navigation/visualisation à la portée du simple mortel, le tout neuf Google Refine, DreamFace Interactive, ou encore Ormetis et le projet Crescent dans l'univers Silverlight de Microsoft, avaient instantanément transformé la population en un bataillon de statisticiens chevronnés entonnant en choeur l'aria du test de Breusch-Pagan de l'hypothèse nulle d'homoscédasticité ! (Bien qu'il y soit question d'analyse des résidus, ce n'est pas du tout ce qu'une perversité peccamineuse vous ferait imaginer !)

 



Pourtant la fin de l'aventure de Swivel, le site qui se présentait comme le premier outil de business intelligence collective — sociale dirait-on dans le mythe modernisé — présente un caractère admonestatoire qui a le goût de l'antidote à ces excès de délégation démocratique. En revanche, opéré par IBM — celui-là même des tabulatrices Dehomag — le site ManyEyes, quant à lui, continue de capturer et visualiser données et corrélations par et pour le bien de tous.

 



Dès la fin des années 1950, l'un des projets de la Staatssicherheitsdienst consistait à automatiser, grâce aux procédés mécanographiques, les archives de la sinistre NS-Archiv des Ministeriums für Staatssicherheit der Deutschen Demokratischen Republik. Les archives initiales de 1953 réunissent une collection de fragments de dossiers personnels et de dossiers d'affaires provenant particulièrement des temps du régime national-socialiste (de l'appareil administratif du Reich) et aussi des années d'après-guerre (de l'appareil administratif de la Zone d'occupation soviétique et de la R.D.A.). Le département XII de la SSD devait l'enrichir considérablement jusqu'en 1989 d'un corpus de données que l'on qualifie aujourd'hui données personnelles ou privées dans la propagande du prosélyte, mais éphémère, Secrétariat à la Prospective et au Développement de l'économie numérique récemment remanié.

 



Il n'est qu'à lire le dernier pamphlet d'O'Reilly, What Is Data Science?, — dans le cas des moteurs de recherche et des réseaux sociaux ne devrait-on pas parler de prises plutôt que de données ? — pour voir refleurir ces idées sous de modernes atours — mais c'est là-même la définition du 2.0 — et deviner derrière le propos irénique que le projet des pionniers au-delà du Rideau de fer a peut-être finalement abouti, un demi-siècle plus tard, mais pas à l'endroit de sa conception ni vraiment sous le nom envisagé, et encore à une échelle proprement inimaginable à l'époque. Nous n'avons plus ni la R.D.A., ni la mécanographie triomphante mais nous avons Facebook et ses API.



ShareThis