crazy-toads.github.io/_posts/2017-09-12-big_data_pour_les_nuls.md
2017-08-31 07:59:26 +08:00

72 lines
11 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
layout: post
title: Le Big data pour les Nuls
authors:
- léquipe QuantCube
date: "2017-09-12"
slug: "big_data_pour_les_nuls"
description: "Les sociétés technologiques du 21ème siècle amassent de grandes quantités de données sur leurs utilisateurs. Ce nouveau business model soulève nombre de questions dordre éthique."
categories:
- Big Data
---
### Règles déthiques des big data du point de vue des entreprises
Les sociétés technologiques du 21ème siècle amassent de grandes quantités de données sur leurs utilisateurs. Ces données sont précieuses et elles sont souvent très utiles pour améliorer lexpérience utilisateur (suggestion de contenu susceptible dintéresser lutilisateur, accès plus rapide à certaines pages webs, ...). Pour les sociétés à but lucratif fournissant des services gratuits, lexploitation de leurs données client est une façon efficace de générer du revenu.
Pour des sociétés aux services payants, cela leur permet de personnaliser loffre, améliorer leur service client, leur CRM et leur ciblage parmi beaucoup dautres applications. Ce nouveau business model soulève nombre de questions dordre éthique. Ici, nous établissons quelques règles encadrant lusage éthique des données des utilisateurs :
- Transparence sur lutilisation des données : communiquer clairement avant et pendant lutilisation du service sur tous les usages des données personnelles des utilisateurs (expérience utilisateur, publicités ciblées, etc…). Cette information devrait être facilement accessible et non cachée dans des conditions dutilisation trop longues et au jargon juridique
- Transparence sur laccès aux données :
- Tous les salariés de la société auront-ils accès aux données personnelles (non agrégées) de tous les utilisateurs ou cet accès sera-t-il restreint à des salariés et à des cas très précis ? Les données (agrégées ou non) pourront-elles être vendues ou mises à dispositions dautres entreprises ?
- Y a-t-il une API (interface de programmation applicative) partageant les données utilisateur à des applications tierces ? De quelles données sagit-il ?
- Demander laccord des utilisateurs avant et pendant lutilisation du service. Lui permettre de choisir quelles données seront utilisées et comment elles le seront. Par exemple, proposer à un client dutiliser seulement les données textuelles postées sur twitter et seulement pour améliorer son expérience utilisateur. En particulier, lutilisateur doit pouvoir refuser la vente de ses données brutes à des entreprises tierces sans perdre laccès au service.
- Lorsque les résultats des algorithmes impactent les utilisateurs (obtention de crédit, prix des contrats dassurances, …), sassurer que les algorithmes utilisés ne discriminent pas selon le sexe, l'âge ou l'ethnie. Nutiliser pour ces algorithmes que les données que les utilisateurs ont consenti de fournir à linstitution. Informer les utilisateurs de lutilisation dalgorithmes pour des décisions les concernant et leur expliquer leur fonctionnement.
- Donner la possibilité à lutilisateur de télécharger ses données personnelles qui ont été collectées par la société et lui permettre de voir comment elles sont utilisées
- Permettre aux utilisateurs deffacer effectivement leurs données (et non uniquement les rendre inaccessibles tout en les conservant dans les serveurs), notamment lors de leur désinscription. Rendre cela facile : ne pas cacher la fonctionnalité, rendre loption facilement accessible et visible lors de la désinscription.
 
### Règles protection des data pour les nuls
Les algorithmes actuels de machine learning permettent à la fois danalyser des données dites structurées, utilisées classiquement dans des problèmes économétriques (données économiques, de bases client…) mais également des données dites non structurées, comme limage et le texte. Lapplication massive des réseaux de neurones aux problèmes danalyse de langage naturel et de vision par ordinateur a rendu cette analyse très précise, permettant à un ordinateur de déduire du contenu dun texte sa thématique et son sentiment, et à partir dune image de reconnaître les objets présents dans limage ou didentifier des personnes...
Ainsi, il est illusoire de penser que nos traces laissées sur Internet (données de navigation, mais également posts sur les réseaux sociaux - texte et images, e-mails, données de géolocalisation et autres) sont “noyées” dans une masse de données et sont inutilisables pour obtenir nos informations personnelles. Il est donc important de savoir quel est le sens du partage et de la publication de nos données sur Internet.
Soyez conscient des données que vous partagez (et avec qui) :
- Votre téléphone portable est une source importante de données personnelles (géolocalisation, contacts, contenu de messages, photos…). Certaines applications mobiles utilisent les autorisations demandées pour “aspirer” le plus de données possibles (données = “pétrole du 21ème siècle”) : un jeu na pas besoin daccéder à toutes les photos et à la localisation de lutilisateur. De plus, ces applications ne sont pas toujours suffisamment sécurisées : vos données risquent de se retrouver dans la nature en cas de faille de sécurité (en règle générale, il vaut mieux ne jamais faire confiance à la sécurité des serveurs sur lesquelles sont stockées les données : une faille est vite arrivée).
- Certaines applications sur vos téléphones peuvent collecter et transmettre vos données de géolocalisation. Certaines ont une certaine légitimité pour utiliser ces données (maps) mais dautres nen demandent laccès que pour revendre vos informations personnelles qui peuvent servir à analyser votre profil. Sachez que ces données permettent de connaître tous les trajets effectués et tous les lieux que vous visitez au cours du temps. Certaines entreprises les utilisent pour envoyer des publicités ciblées. Il est possible de visualiser lutilisation que google fait de nos données de localisation à cette adresse <https://www.google.com/maps/timeline?pb>
- Quand vous vous enregistrez à une application ou un site via votre compte Facebook ou LinkedIn ou Google, vous nêtes pas seulement en train de gagner du temps en ne remplissant pas un questionnaire - vous donnez accès à certaines données de vos comptes. De plus, connecter différents comptes multiplie les données, donc les risques...
- Lentreprise qui détient votre serveur de mails a accès à tous les mails que vous envoyez, recevez ou laissez dans vos brouillons ainsi que les fichiers attachés. Ces données sont généralement scannées automatiquement afin de mieux analyser votre profil, de mieux cibler les publicités qui vous sont destinées, et de mieux définir des tendances globales. Rien n'exclut que vos emails soient lus directement par un employé de la firme.
- Vérifier laccès au micro des applications :  cela leur permet théoriquement découter en continu vos discussions (pensez aux applications dassistants personnels qui sactivent avec certains mots-clefs - il faut donc quelles analysent vos données audio en continu) : en détectant certains mots, certains algorithmes sont capables de tirer des informations pouvant servir au profiling dune personne, …
- Les moteurs de recherches (Google, Bing) gardent lhistorique des recherches et les associent à des utilisateurs (à travers leurs données de navigation ou simplement de leur connexion à leurs comptes utilisateur) : information précieuse pour déterminer ses centres dintérêts pour du marketing ou du profiling, ainsi que pour améliorer votre expérience client et fluidifier lutilisation de leurs services. Lorsque vous partagez vos photos, vous rendez accessible un certain nombre dinformation dont vous ne vous en doutiez pas forcément :
- Pour apprendre à effectuer une tâche dintelligence artificielle, une machine a besoin dexemples. Dans le cas dalgorithmes de reconnaissance faciale, elle a besoin davoir plusieurs photos du visage dune même personne pour arriver à définir les caractéristiques qui lui permettront de lidentifier. Ainsi, lorsque vous taggez quelquun sur une photo dans un réseau social, vous êtes en fait en train de créer ces exemples (labelliser des données) et rendez possible pour lentreprise hébergeant ce contenu de faire tourner des algorithmes de reconnaissance faciale sur cette personne
- Extraire de linformation depuis des photos est facile : un réseau de neurones peut aisément reconnaître certains objets (au sens large de la vision par ordinateur) : présence de chats, chiens, humains, arbres, tables… car il existe des bases de données fournies avec des exemples de ce genre dobjets. Mais des informations moins triviales peuvent être déduites par des organismes disposants de bases dexemples plus fournies et spécifiques :
- Détection de lieux (permet de traquer les déplacements)
- Détection de marques (à travers les logos) ou de produits consommés (permet de connaître les habitudes de consommation)
- Informations sur une personne (genre, âge, ethnie…) (permet de cibler pour un marketing personnalisé)
- Changements dans la vie dune personne (mariage, grossesse, enfants, blessure...)
Il est donc important de vérifier les droits daccès des photos ou des posts sur les réseaux sociaux - et de choisir le genre de photos que lon souhaite partager
- Les données du graphe social dune personnes (et ses interactions avec dautres) permettent dinférer des informations à partir de ses contacts dans les réseaux sociaux
- Les abonnements, pages aimées et suivies peuvent être utilisées pour déterminer ce quune personne aime ainsi que son profil :  pub ciblée, orientation politique, profil psychologique (test MBTI à partir des réseaux sociaux)
Même si vous ne fournissez pas ces données vous même, vos amis et liens sur les réseaux sociaux (Facebook a aussi accès aux données Whatsapp) permettent de déterminer votre graphe de relations et par proximité vos intérêts probables, votre classe sociale et même vos opinions politiques
- Des informations sur vos relations peuvent être déduites par des réseaux sociaux. Les données Facebook pourraient servir par exemple à détecter lorsquun couple est en train de se former à partir du volume des échanges par messagerie ou des posts sur le mur de lautre <https://www.facebook.com/notes/facebook-data-science/the-formation-of-love/10152064609253859>
- Une précaution très particulière doit être prise au sujet des données personnelles biométriques et de santé :
- Données biométriques (login à partir des empreintes digitales) : possible de hacker lidentité dune personne ; il est facile de changer de mot de passe mais pas de changer dempreinte digitale
- Le partage de données médicales par Internet (ex. : résultats danalyses biologiques) doit faire appel à une vigilance accrue au sujet de la sécurité des serveurs (données sensibles) - risque de vol de données