--- layout: post title: Que faire avec La data, or noir du 21° siècle ? authors: Fabienne Cazalis, l’équipe QuantCube, Julien Derville et Augustin Poupard (Association Familiale Mulliez) et Thanh Nghiem date: "2017-04-12" slug: "or_noir" description: "Utiliser son téléphone ou internet, c’est céder gratuitement des informations, des données. De quelles données parlons-nous ? Comment sont-elles utilisées ?" categories: - BigData --- ### Vous avez dit data ? La question des données personnelles et de leur sécurité émeut rarement le grand public. Cette question évoque plutôt des temps révolus, des états totalitaires, de l’espionnage, où les lettres étaient savamment décachetées à la vapeur, ou au contraire ouvertes et caviardées par les censeurs du pouvoir en place. Un tel danger nous semble improbable. D’ailleurs, les gens peuvent expliquer leur manque d’intérêt pour cette question en disant par exemple qu’ils n’ont rien à cacher, ou bien qu’ils préfèrent recevoir des publicités ciblées plutôt que des publicités génériques, ou encore qu’ils sont satisfaits de bénéficier d’un service gratuit en échange de leurs données. Utiliser son téléphone ou internet (via un ordinateur ou n’importe quel objet connecté), c’est céder gratuitement des informations, des données (en anglais : data). Que vous soyez un particulier, une entreprise, une école, un gouvernement, les données issues de vos connexions au réseau s’accumulent. De quelles données parlons-nous ? Comment sont-elles utilisées ? ### De quelles données parlons-nous ? Ces informations sont de différentes natures : Il y a les métadonnées : ce sont les informations sur votre connexion, sans information sur son contenu. Par exemple, le nombre d’appels téléphoniques que vous passez par jour est une métadonnée. L’heure des appels, la durée des appels, le fournisseur d’accès par lequel vous êtes passé sont également des métadonnées. Et il y a les données proprement dites, qui sont des informations vous concernant directement. Par exemple, la fonction de localisation de votre téléphone indique où vous vous trouvez. La liste de ce qui constitue une donnée semble sans fin : les destinataires de vos emails, les photos que vous postez sur les media sociaux, le texte de vos messages, les achats que vous faites sur le net, mais également toute donnée collectée ailleurs que sur internet, puis stockée sur un ordinateur rattaché au réseau (lorsque vous êtes filmé dans un bâtiment par exemple). ### Comment sont-elles utilisées ? #### Utilisations “légales” Les données peuvent être collectées, stockées, vendues, analysées. L’utilisation peut mener à produire soit des informations vous concernant personnellement (ce qui mène, par exemple, aux publicités ciblées), soit des analyses permettant de prédire les comportements humains, un outil fondamental non seulement pour le marketing moderne, mais également pour comprendre les mécanismes qui déterminent l’opinion publique. Les métadonnées peuvent sembler inoffensives, mais il n’en est rien. Ces données peuvent suffire à vous identifier et à déduire des informations vous concernant. Certes, si comme la plupart des gens, vous avez le sentiment que vous n’avez rien à cacher, cela peut sembler sans gravité. Toutefois, imaginez que dans les années qui viennent, un gouvernement à orientation totalitaire soit au pouvoir, ces données qui vous concernent seront toujours accessibles et peuvent conduire à des décisions vous concernant. Pour les citoyens du monde qui vivent dans des pays où la censure est forte, de telles données peuvent être suffisantes pour leur créer de graves problèmes. Les données proprement dites sont généralement directement identifiantes. Ce sont donc des informations (informations « faibles » qui mises en commun ont beaucoup de valeur) précises sur votre personnalité, votre mode de vie, vos valeurs, vos préférences qui sont collectées. Là encore, cela peut vous sembler inoffensif si vous vivez dans une démocratie et que vous respectez la loi. Toutefois, vous pouvez mieux vous représenter comment de telles données personnelles pourraient être utilisées contre vous sous un gouvernement totalitaire. Mais là n’est pas le problème le plus préoccupant. Ces données peuvent être utilisées pour alimenter une intelligence artificielle (IA) qui deviendra ainsi capable d’identifier les éléments qui vont modifier non seulement les comportements mais aussi les opinions d’un groupe humain. La puissance de ces IA est difficile à concevoir pour le grand public, mais on comprend facilement comment un tel outil peut permettre de manipuler l’opinion publique, voire d’orienter le résultats d’élections, comme on l’a vu avec le Brexit ou les élections américaines1. Ces données sont presque toujours acquises dans la légalité. Lorsque vous signez les conditions d’utilisation d’un logiciel, d’une app, d’un site, de réseaux sociaux (les fameuses “cgu”), vous donnez votre accord pour que vos données soient collectées, stockées, utilisées et même revendues sans que vous sachiez à qui ni dans quel but. Peut-on imaginer pire ? Oui… Par exemple, si une de vos connaissances accepte les CGU d’une app sur son smart phone, il peut tout à fait, et sans en avoir le soupçon, avoir donné son accord pour que tout son carnet d’adresse soit capté par l’app en question, puis analysé, vendu, etc. #### Utilisation illégale (piratage) Même lorsque vous n’avez pas donné votre autorisation, vos données peuvent néanmoins être collectées par des pirates. Typiquement, il s’agira de vos informations de paiement, voire d’information permettant l’usurpation de votre identité. Mais il arrive aussi que ce soit des données personnelles qui seront piratées et divulguées sans votre accord (comme dans le scandale du site de rencontres extra conjugales Ashley Madison en été 2015). Sur le plan informatique, il faut savoir que le risque zéro n’existe pas. Grâce au nouveau règlement sur les données personnelles qui entrera en vigueur en mai 2018, les entreprises devront être en mesure de prouver qu’elles ont mis tous les moyens à disposition pour assurer la sécurité des informations (données) de leurs clients. ### Que faire ? La meilleure protection est la transparence (ou pour les plus extrêmes, l’abstinence !). Moins vous avez recours aux sites qui collectent des données, ou si vous ne recourez qu’aux sites qui le font de manière transparente, moins vous courrez de risques. Lorsque s’abstenir n’est pas une option, prenez le temps de lire les conditions d’utilisation avant de signer. Dans tous les cas, lorsque plusieurs options sont disponibles, choisissez la plus sûre. Il est fréquent que les sites et logiciels payants aient des CGU bien plus respectueuses des données des usagers. C’est d’ailleurs pour cette raison que l’on affirme “Sur Internet, si c’est gratuit, c’est toi le produit”, ce qui signifie que si le service est gratuit, l’entreprise fait des bénéfices en revendant vos données et leurs analyses. C’est par exemple le cas de Facebook, qui utilise les données des utilisateurs du réseau social pour mieux les cibler. Bien que cela semble contre-intuitif, une excellente protection est l’open source. En effet, si vos données sont accessibles à tous, elles n’ont plus aucune valeur marchande. Ainsi l’open access, une fois de plus, résout des problèmes en ne les posant tout simplement pas. Mais peut-on tout ouvrir ? On pourra s’inspirer, pour répondre à cette question, des préconisations du conseil européen de la recherche, préconisations qui s’adressent aux scientifiques et qui seront appliquées en 2020. Ces préconisations permettent de garantir, au mieux de nos connaissances actuelles, la souveraineté des citoyens concernant leurs données. Il s’agit de règles sur l’ouverture du code et des données, sur les outils de stockage (vos données sont-elles anonymisées et cryptées avant d’être stockées ?) et sur l’usage qui sera fait de ces données. Puissions-nous nous en inspirer pour que l’Internet devienne un espace mieux sécurisé où les usagers peuvent remplir leur rôle citoyen sans craindre d’alimenter à leur insu des politiques et des entreprises qu’ils réprouvent. Le règlement Européen sur les données personnelles qui entrera en vigueur à partir de mai 2018 permettra à tous les utilisateurs de demander de récupérer de manière lisible les données d’un service ou d’une entreprise. En d’autres termes, un utilisateur de Google pourra demander à Google de lui transmettre la totalité des informations qu’il a laissé sur les services Google. Il aura aussi la possibilité de demander la suppression des données. Ce règlement a été mis en vigueur pour faciliter l’émergence d’alternatives et ne pas rester dépendant d’un écosystème en particulier. L’arrivée de ce règlement est une superbe opportunité pour des entreprises qui souhaitent développer le concept du VRM (Vendor Relationship Management), PDS (Personal Data Store) ou le self data. Tous proposent à l’utilisateur de stocker ses données propres après qu’elles aient été récupérés. Une fois les données réunies et consolidées autour de chaque citoyen, ces derniers pourront les confier aux entreprises qu’ils souhaitent. Par exemple, si vous souhaitiez participer à la recherche sur la santé, vous pourriez confier une partie de vos données (anonymisées) à un institut de recherche. La société américaine Meeco ou une autre française comme CozyCloud développent ces modèles alternatifs. Ou encore : http://mesinfos.fing.org/. Il convient enfin de souligner que tout n’est pas tout noir. Les géants américains ont permis de prodigieuses avancées dans la connexion et le partage de connaissances entre internautes, voire même l’identification des épidémies. L’excès inverse consisterait à tomber dans la théorie du complot, ou les scénarios de science-fiction dans lesquels les machines et l’IA prennent le contrôle d’une humanité dépassée. Notre propos est de mettre l’accent sur ce qui marche, la « face positive » d’Internet. Avec Citizen Link, il s’agit d’encourager la remontée des initiatives locales positives qui marchent, à l’instar du Sarcelloscope. Les avancées technologiques ont permis à des sociétés comme Telegram, qui utilise un chiffrement dit de “bout en bout” garantissant que seul l’expéditeur et le destinataire des messages peuvent voir leur contenu. Suite à cet engouement, des services comme Whatsapp (qui appartient à Facebook) ont adoptés ces codes.