Données massives, Big Data: une définition problématique

Une définition problématique des données massives ou méga-données permet de comprendre les questions qui se posent aujourd’hui :

Les méga-données forment de géantes bases de données (lesquelles sont à la fois massives, de structures variées et souvent en quasi-temps réel), qui alimentent des systèmes informatiques dont les algorithmiques permettent de reconnaître des formes par apprentissage automatique et d’inférer des prédictions dans des domaines les plus variés (recherche, commerce, police, santé, finance, traduction…)

 

Les progrès spectaculaires de l‘Intelligence Artificielle dans la reconnaissance de formes reposent sur les big data pour entrainer des réseaux de « neurones formels ». Chaque terme de la définition des méga-données mériterait une discussion problématique. On peut au moins retenir deux grandes questions.

1. Les données massives, une nouvelle forme de perception du monde ?

Fondée sur l’analyse de données que certains appelent « brutes », la reconnaissance artificielle modifie notre perception du monde. Les nouvelles possibilités de saisie (capteurs, Web, Internet des objets, biométrie, métadonnées…), de stockage (bases NoSQL, fermes de données, nuage informatique…) et de calcul (processeurs, grappes de serveurs, calcul parallèle…) ont révolutionné le domaine de la reconnaissance de formes sur données massives:

– recherche de régularités (fouille de données, apprentissage automatique par réseaux de neurones formels…) et de singularités (signaux faibles, réduction de variables, sévérité d’événements aléatoires…), et donc la découverte de phénomènes que nous ne pouvions pas percevoir;

– mais cette reconnaissance de formes se fait dans une non-explicitation de ces découvertes (sans transparence possible des calculs et sans catégories qui seraient débattables) ou même une non-compréhension de ces phénomènes (un déluge de données décontextualisées ne menant qu’à un déluge de corrélations).

Voir ce diaporama de B. Fallery (2013), voir les pages 76-77 de l’ouvrage SI et Management, et voir cette sélection de liens :

.

2. Les données massives, une nouvelle idéologie techniciste ?

L’utilisation « directe » et « sans filtre » de masses de données revendique une objectivité très contestable, car de simple traces ne deviennent des données qu’au travers d’une mesure, laquelle n’est pas neutre. Et l’exploitation de ces traces est au service d’une gouvernementalité algorithmique :

– Corrélations abusives ? place de l’interprétation ? un savoir sans trace de « celui qui sait » ? dangers dans le domaine médical ? choix des jeux de données et des métriques ? biais ? incontestabilité ?

– Big brother, religion du dataïsme, surveillance, classements, recommandations, société du contrôle, tracing et tracking, menaces pour la vie privée, association des individus à des profils potentiels, flou juridique, RGPD…

Voir par exemple cette sélection de liens :

.

Retour sur les autres Problématiques actuelles en management des T.I