La production exponentielle de données soulève des questions de plus en plus pressantes quant à leur utilisation.
L’économie de la data
Nous générons de plus en plus de données, de data pour utiliser le mot à la mode. Y compris à notre insu, vu que notre environnement nous espionne en permanence. Il y a quelques jours, je lisais encore un article à propos du lancement d’un décapsuleur connecté, objet destiné pour l’instant aux professionnels mais qui ne manquera pas d’arriver bientôt dans nos cuisines, à côté de ses amis connectés le frigidaire et le robot cuisinier. Ces nouveaux objets connectés (l’IoT ou internet des objets est vu comme le risque croissant lié à la sécurité en 2020) doivent nous faciliter la vie, mais pour l’instant ce sont surtout des aspirateurs à données, tout comme le smartphone, la voiture, le système de chauffage, la TV intelligente, les baskets, les traqueurs d’activité physique, etc. Et là, on ne parle que des objets personnels mais il y a également la smart city, la ville connectée, qui commence à générer son flot de data, y compris avec reconnaissance faciale. Et bien entendu la trace numérique que nous laissons sur le web depuis des années, que ce soit nos posts sur les réseaux sociaux, nos recherches sur Google ou nos achats en ligne.
Bref, nous somme dans l’économie de la data et quoi que nous fassions, quel que soit l’endroit, nous produisons un ensemble gigantesque de données. A quoi servent-elles? Nous l’apprenons partiellement suite à l’éclatement de tel ou tel scandale. Un coin de voile se déchire alors, et nous découvrons comment nous avons été manipulés par les apprentis sorciers de l’intelligence artificielle.
En recoupant différents ensembles de données dont nous ignorions jusqu’à l’existence, des algorithmes nous connaissent mieux que nous-mêmes. Et encore, ces intelligences artificielles ne sont actuellement en mesure d’exploiter qu’une infime partie des data à disposition. En effet, stocker massivement des données ne suffit pas pour en extraire des informations. Souvent, ces données ont été sauvées sans but précis, on ne sait jamais, elles pourraient se révéler utiles un jour, donc on sature les serveurs des data centers… reste que pour une exploitation efficace par des algorithmes, les données doivent être propres, structurées et homogènes entre data sets.
Quelle utilisation des data ?
Maintenant que nous sommes au cœur du capitalisme de surveillance, sachant que ces données existent, vient la question de leur utilisation. Et son corollaire, leur protection. Un certain nombre d’experts estiment que toute protection est illusoire. La récente enquête du New York Times a démontré que dès lors que des data existent, il y aura toujours moyen de se les procurer et de les analyser et recouper avec d’autres données afin d’en extraire des informations utiles. L’article démontre également que l’anonymisation des données n’est aussi qu’une illusion.
Partant de ce constat, certains spécialistes estiment qu’il faudrait se concentrer sur des systèmes de monétisation de nos données, entre autres basés sur la blockchain. Tout deviendrait ainsi à vendre et aurait un prix, loin de l’hypocrisie actuelle du tout gratuit où nous comprenons toujours trop tard qu’à la fin, quand c’est gratuit, c’est toi le produit.
Reste la problématique du juste prix.
Par exemple, le big data laisse entrevoir des résultats très prometteurs dans le domaine médical. Le partage d’informations à grande échelle permettrait de faire avancer la recherche et d’offrir de meilleurs traitements. Mais sommes-nous prêts à vendre nos données médicales à un grand groupe pharmaceutique? Si oui, certainement plus cher qu’à une équipe de chercheurs universitaires, à qui nous serions même prêts à les céder gratuitement. Et combien vaudra le data set une fois volé et mis en vente sur le dark web? Combien serait prête à payer une compagnie d’assurance afin de mieux filtrer ses assurés?
Comment faire dès lors que la protection ne peut être garantie à 100% (ni du point de vue technique, ni réglementaire, p.ex. avec la RGPD pourtant vue comme la réglementation la plus avancée) et la juste valorisation bien trop complexe?
Deux axes sont envisageables
D’abord, des sanctions exemplaires pour les cas d’utilisation illicite. Les sociétés ou individus utilisant des données obtenues de manière non licite ou les utilisant dans un but condamnable devront être poursuivis et condamnés avec la plus grande sévérité. C’est le rôle des Etats, et plus idéalement d’entités supranationales, de protéger correctement les citoyens contre ces menaces d’un genre nouveau. Même si cela implique de nouvelles barrières à la «liberté d’entreprendre».
L’autre axe, complémentaire au premier, est de faire payer non pas la donnée elle-même, mais le flux. Récolter massivement des données génère des flux importants. Ces flux sont mesurables par les opérateurs et la source du flux est identifiable. Cette approche serait une alternative à la taxe GAFA. Ou un complément, même si les sociétés technologiques et les utilisateurs crieront au scandale de l’atteinte à la vie privée (si Facebook sait, c’est ok… si c’est l’Etat, c’est pas ok ?) ou à la double ou triple taxation d’internet, que beaucoup voient encore comme un service “gratuit”.
Pourtant, le parallèle est simple: si vous possédez une voiture, vous devez payer la voiture, son carburant, son assurance, son parking et sa taxe de circulation, et encore les autoroutes dans certains pays. Sur internet, ce sera pareil, les couches de frais s’empileront au bénéfice d’une certaine transparence quant aux flux de données et d’une prise de conscience par les différents acteurs.
Les données sont vues comme le pétrole du XXIe siècle, le business modèle doit être adapté : taxes de prospection, d’extraction, de stockage, de raffinage et de transport. Ces nouvelles sources de financement devront servir aux Etats à mettre en place des structures permettant de protéger les citoyens de toute utilisation abusive de leurs données et de restreindre tant que possible ce capitalisme de manipulation que la collecte massive de données rend désormais possible.