crazy-toads.github.io/_posts/2017-09-12-or_noir.md
2017-08-31 07:59:26 +08:00

61 lines
11 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
layout: post
title: Que faire avec La data, or noir du 21° siècle ?
authors:
- Fabienne Cazalis
- léquipe QuantCube
- Julien Derville
- Augustin Poupard (Association Familiale Mulliez)
- Thanh Nghiem
date: "2017-09-12"
slug: "or_noir"
description: "Utiliser son téléphone ou internet, cest céder gratuitement des informations, des données. De quelles données parlons-nous ? Comment sont-elles utilisées ?"
categories:
- Big Data
---
### Vous avez dit data ?
La question des données personnelles et de leur sécurité émeut rarement le grand public. Cette question évoque plutôt des temps révolus, des états totalitaires, de lespionnage, où les lettres étaient savamment décachetées à la vapeur, ou au contraire ouvertes et caviardées par les censeurs du pouvoir en place. Un tel danger nous semble improbable. Dailleurs, les gens peuvent expliquer leur manque dintérêt pour cette question en disant par exemple quils nont rien à cacher, ou bien quils préfèrent recevoir des publicités ciblées plutôt que des publicités génériques, ou encore quils sont satisfaits de bénéficier dun service gratuit en échange de leurs données.
Utiliser son téléphone ou internet (via un ordinateur ou nimporte quel objet connecté), cest céder gratuitement des informations, des données (en anglais : data). Que vous soyez un particulier, une entreprise, une école, un gouvernement, les données issues de vos connexions au réseau saccumulent. De quelles données parlons-nous ? Comment sont-elles utilisées ?
### De quelles données parlons-nous ?
Ces informations sont de différentes natures :
Il y a les métadonnées : ce sont les informations sur votre connexion, sans information sur son contenu. Par exemple, le nombre dappels téléphoniques que vous passez par jour est une métadonnée. Lheure des appels, la durée des appels, le fournisseur daccès par lequel vous êtes passé sont également des métadonnées.
Et il y a les données proprement dites, qui sont des informations vous concernant directement. Par exemple, la fonction de localisation de votre téléphone indique où vous vous trouvez. La liste de ce qui constitue une donnée semble sans fin : les destinataires de vos emails, les photos que vous postez sur les media sociaux, le texte de vos messages, les achats que vous faites sur le net, mais également toute donnée collectée ailleurs que sur internet, puis stockée sur un ordinateur rattaché au réseau (lorsque vous êtes filmé dans un bâtiment par exemple).
### Comment sont-elles utilisées ?
#### Utilisations “légales”
Les données peuvent être collectées, stockées, vendues, analysées. Lutilisation peut mener à produire soit des informations vous concernant personnellement (ce qui mène, par exemple, aux publicités ciblées), soit des analyses permettant de prédire les comportements humains, un outil fondamental non seulement pour le marketing moderne, mais également pour comprendre les mécanismes qui déterminent lopinion publique.
Les métadonnées peuvent sembler inoffensives, mais il nen est rien. Ces données peuvent suffire à vous identifier et à déduire des informations vous concernant. Certes, si comme la plupart des gens, vous avez le sentiment que vous navez rien à cacher, cela peut sembler sans gravité. Toutefois, imaginez que dans les années qui viennent, un gouvernement à orientation totalitaire soit au pouvoir, ces données qui vous concernent seront toujours accessibles et peuvent conduire à des décisions vous concernant. Pour les citoyens du monde qui vivent dans des pays où la censure est forte, de telles données peuvent être suffisantes pour leur créer de graves problèmes.
Les données proprement dites sont généralement directement identifiantes. Ce sont donc des informations (informations « faibles » qui mises en commun ont beaucoup de valeur) précises sur votre personnalité, votre mode de vie, vos valeurs, vos préférences qui sont collectées. Là encore, cela peut vous sembler inoffensif si vous vivez dans une démocratie et que vous respectez la loi. Toutefois, vous pouvez mieux vous représenter comment de telles données personnelles pourraient être utilisées contre vous sous un gouvernement totalitaire. Mais là nest pas le problème le plus préoccupant. Ces données peuvent être utilisées pour alimenter une intelligence artificielle (IA) qui deviendra ainsi capable didentifier les éléments qui vont modifier non seulement les comportements mais aussi les opinions dun groupe humain. La puissance de ces IA est difficile à concevoir pour le grand public, mais on comprend facilement comment un tel outil peut permettre de manipuler lopinion publique, voire dorienter le résultats délections, comme on la vu avec le Brexit ou les élections américaines1.
Ces données sont presque toujours acquises dans la légalité. Lorsque vous signez les conditions dutilisation dun logiciel, dune app, dun site, de réseaux sociaux (les fameuses “cgu”), vous donnez votre accord pour que vos données soient collectées, stockées, utilisées et même revendues sans que vous sachiez à qui ni dans quel but.
Peut-on imaginer pire ? Oui… Par exemple, si une de vos connaissances accepte les CGU dune app sur son smart phone, il peut tout à fait, et sans en avoir le soupçon, avoir donné son accord pour que tout son carnet dadresse soit capté par lapp en question, puis analysé, vendu, etc.
#### Utilisation illégale (piratage)
Même lorsque vous navez pas donné votre autorisation, vos données peuvent néanmoins être collectées par des pirates. Typiquement, il sagira de vos informations de paiement, voire dinformation permettant lusurpation de votre identité. Mais il arrive aussi que ce soit des données personnelles qui seront piratées et divulguées sans votre accord (comme dans le scandale du site de rencontres extra conjugales Ashley Madison en été 2015).
Sur le plan informatique, il faut savoir que le risque zéro nexiste pas. Grâce au nouveau règlement sur les données personnelles qui entrera en vigueur en mai 2018, les entreprises devront être en mesure de prouver quelles ont mis tous les moyens à disposition pour assurer la sécurité des informations (données) de leurs clients.
### Que faire ?
La meilleure protection est la transparence (ou pour les plus extrêmes, labstinence !). Moins vous avez recours aux sites qui collectent des données, ou si vous ne recourez quaux sites qui le font de manière transparente, moins vous courrez de risques. Lorsque sabstenir nest pas une option, prenez le temps de lire les conditions dutilisation avant de signer. Dans tous les cas, lorsque plusieurs options sont disponibles, choisissez la plus sûre. Il est fréquent que les sites et logiciels payants aient des CGU bien plus respectueuses des données des usagers. Cest dailleurs pour cette raison que lon affirme “Sur Internet, si cest gratuit, cest toi le produit”, ce qui signifie que si le service est gratuit, lentreprise fait des bénéfices en revendant vos données et leurs analyses. Cest par exemple le cas de Facebook, qui utilise les données des utilisateurs du réseau social pour mieux les cibler.
Bien que cela semble contre-intuitif, une excellente protection est lopen source. En effet, si vos données sont accessibles à tous, elles nont plus aucune valeur marchande. Ainsi lopen access, une fois de plus, résout des problèmes en ne les posant tout simplement pas. Mais peut-on tout ouvrir ? On pourra sinspirer, pour répondre à cette question, des préconisations du conseil européen de la recherche, préconisations qui sadressent aux scientifiques et qui seront appliquées en 2020. Ces préconisations permettent de garantir, au mieux de nos connaissances actuelles, la souveraineté des citoyens concernant leurs données. Il sagit de règles sur louverture du code et des données, sur les outils de stockage (vos données sont-elles anonymisées et cryptées avant dêtre stockées ?) et sur lusage qui sera fait de ces données. Puissions-nous nous en inspirer pour que lInternet devienne un espace mieux sécurisé où les usagers peuvent remplir leur rôle citoyen sans craindre dalimenter à leur insu des politiques et des entreprises quils réprouvent.
Le règlement Européen sur les données personnelles qui entrera en vigueur à partir de mai 2018 permettra à tous les utilisateurs de demander de récupérer de manière lisible les données dun service ou dune entreprise. En dautres termes, un utilisateur de Google pourra demander à Google de lui transmettre la totalité des informations quil a laissé sur les services Google. Il aura aussi la possibilité de demander la suppression des données. Ce règlement a été mis en vigueur pour faciliter lémergence dalternatives et ne pas rester dépendant dun écosystème en particulier.
Larrivée de ce règlement est une superbe opportunité pour des entreprises qui souhaitent développer le concept du VRM (Vendor Relationship Management), PDS (Personal Data Store) ou le self data. Tous proposent à lutilisateur de stocker ses données propres après quelles aient été récupérés. Une fois les données réunies et consolidées autour de chaque citoyen, ces derniers pourront les confier aux entreprises quils souhaitent. Par exemple, si vous souhaitiez participer à la recherche sur la santé, vous pourriez confier une partie de vos données (anonymisées) à un institut de recherche. La société américaine Meeco ou une autre française comme CozyCloud développent ces modèles alternatifs. Ou encore : http://mesinfos.fing.org/.
Il convient enfin de souligner que tout nest pas tout noir. Les géants américains ont permis de prodigieuses avancées dans la connexion et le partage de connaissances entre internautes, voire même lidentification des épidémies. Lexcès inverse consisterait à tomber dans la théorie du complot, ou les scénarios de science-fiction dans lesquels les machines et lIA prennent le contrôle dune humanité dépassée. Notre propos est de mettre laccent sur ce qui marche, la « face positive » dInternet. Avec Citizen Link, il sagit dencourager la remontée des initiatives locales positives qui marchent, à linstar du Sarcelloscope. Les avancées technologiques ont permis à des sociétés comme Telegram, qui utilise un chiffrement dit de “bout en bout” garantissant que seul lexpéditeur et le destinataire des messages peuvent voir leur contenu. Suite à cet engouement, des services comme Whatsapp (qui appartient à Facebook) ont adoptés ces codes.