Données massives, Big Data: une définition problématique

Une définition problématique des données massives ou méga-données permet de comprendre les questions qui se posent aujourd’hui :

Les méga-données forment de géantes bases de données (lesquelles sont à la fois massives, de structures variées et souvent en quasi-temps réel), qui alimentent des systèmes informatiques dont les algorithmiques permettent de reconnaître des formes par apprentissage automatique et d’inférer des prédictions dans des domaines les plus variés (recherche, commerce, police, santé, finance, traduction…)

 

Bien que l’attention médiatique se soit un peu déplacée vers des problématiques spécifiques autour de l’Intelligence artificielle (l’IA numérique a besoin des big data pour entrainer des réseaux de neurones), chaque terme de cette définition des méga-données mériterait une discussion problématique. On peut au moins retenir deux grandes questions.

1. Les données massives, une nouvelle forme de perception du monde ?

Fondée sur l’analyse de données dites « brutes », la reconnaissance artificielle modifie notre perception du monde. Les nouvelles possibilités de saisie (capteurs, Web, Internet des objets, biométrie, métadonnées…), de stockage (bases NoSQL, fermes de données, nuage informatique…) et de calcul (processeurs, grappes de serveurs, calcul parallèle…) ont révolutionné le domaine de la reconnaissance de formes sur données massives:

– recherche de régularités (fouille de données, apprentissage automatique par réseaux de neurones formels…) et de singularités (signaux faibles, réduction de variables, sévérité d’événements aléatoires…), et donc la découverte de phénomènes que nous ne pouvions pas percevoir;

– mais aussi une non-explicitation de ces découvertes (sans transparence du calcul, sans catégories débattables) ou même une non-compréhension de ces phénomènes (un déluge de données décontextualisées menant à un déluge de corrélations).

Voir ce diaporama de B. Fallery (2013), voir les pages 76-77 de l’ouvrage SI et Management, et voir cette sélection de liens :

.

2. Les données massives, une nouvelle idéologie techniciste ?

L’utilisation « directe » et « sans filtre » de masses de données revendique une objectivité très contestable et elle est au service d’une gouvernementalité algorithmique :

– Corrélations abusives ? place de l’interprétation ? un savoir sans trace de celui qui sait ? dangers dans le domaine médical ? choix des jeux de données et des métriques ? biais ? incontestabilité ?

– Big brother, religion du dataïsme, surveillance, classements, recommandations, société du contrôle, tracing et tracking, menaces pour la vie privée, association des individus à des profils potentiels, flou juridique, RGPD…

Voir par exemple cette sélection de liens :

.

Retour sur les autres Problématiques actuelles en management des T.I