72 lines
11 KiB
Markdown
72 lines
11 KiB
Markdown
|
---
|
|||
|
layout: post
|
|||
|
title: Le Big data pour les Nuls
|
|||
|
authors: l’équipe QuantCube
|
|||
|
date: "2017-04-15"
|
|||
|
slug: "big_data_pour_les_nuls"
|
|||
|
description: "Les sociétés technologiques du 21ème siècle amassent de grandes quantités de données sur leurs utilisateurs. Ce nouveau business model soulève nombre de questions d’ordre éthique."
|
|||
|
categories:
|
|||
|
- big data
|
|||
|
---
|
|||
|
|
|||
|
### Règles d’éthiques des big data du point de vue des entreprises
|
|||
|
|
|||
|
Les sociétés technologiques du 21ème siècle amassent de grandes quantités de données sur leurs utilisateurs. Ces données sont précieuses et elles sont souvent très utiles pour améliorer l’expérience utilisateur (suggestion de contenu susceptible d’intéresser l’utilisateur, accès plus rapide à certaines pages webs, ...). Pour les sociétés à but lucratif fournissant des services gratuits, l’exploitation de leurs données client est une façon efficace de générer du revenu.
|
|||
|
|
|||
|
Pour des sociétés aux services payants, cela leur permet de personnaliser l’offre, améliorer leur service client, leur CRM et leur ciblage parmi beaucoup d’autres applications. Ce nouveau business model soulève nombre de questions d’ordre éthique. Ici, nous établissons quelques règles encadrant l’usage éthique des données des utilisateurs :
|
|||
|
|
|||
|
- Transparence sur l’utilisation des données : communiquer clairement avant et pendant l’utilisation du service sur tous les usages des données personnelles des utilisateurs (expérience utilisateur, publicités ciblées, etc…). Cette information devrait être facilement accessible et non cachée dans des conditions d’utilisation trop longues et au jargon juridique
|
|||
|
|
|||
|
- Transparence sur l’accès aux données :
|
|||
|
- Tous les salariés de la société auront-ils accès aux données personnelles (non agrégées) de tous les utilisateurs ou cet accès sera-t-il restreint à des salariés et à des cas très précis ? Les données (agrégées ou non) pourront-elles être vendues ou mises à dispositions d’autres entreprises ?
|
|||
|
- Y a-t-il une API (interface de programmation applicative) partageant les données utilisateur à des applications tierces ? De quelles données s’agit-il ?
|
|||
|
|
|||
|
- Demander l’accord des utilisateurs avant et pendant l’utilisation du service. Lui permettre de choisir quelles données seront utilisées et comment elles le seront. Par exemple, proposer à un client d’utiliser seulement les données textuelles postées sur twitter et seulement pour améliorer son expérience utilisateur. En particulier, l’utilisateur doit pouvoir refuser la vente de ses données brutes à des entreprises tierces sans perdre l’accès au service.
|
|||
|
|
|||
|
- Lorsque les résultats des algorithmes impactent les utilisateurs (obtention de crédit, prix des contrats d’assurances, …), s’assurer que les algorithmes utilisés ne discriminent pas selon le sexe, l'âge ou l'ethnie. N’utiliser pour ces algorithmes que les données que les utilisateurs ont consenti de fournir à l’institution. Informer les utilisateurs de l’utilisation d’algorithmes pour des décisions les concernant et leur expliquer leur fonctionnement.
|
|||
|
|
|||
|
- Donner la possibilité à l’utilisateur de télécharger ses données personnelles qui ont été collectées par la société et lui permettre de voir comment elles sont utilisées
|
|||
|
|
|||
|
- Permettre aux utilisateurs d’effacer effectivement leurs données (et non uniquement les rendre inaccessibles tout en les conservant dans les serveurs), notamment lors de leur désinscription. Rendre cela facile : ne pas cacher la fonctionnalité, rendre l’option facilement accessible et visible lors de la désinscription.
|
|||
|
|
|||
|
### Règles protection des data pour les nuls
|
|||
|
|
|||
|
Les algorithmes actuels de machine learning permettent à la fois d’analyser des données dites structurées, utilisées classiquement dans des problèmes économétriques (données économiques, de bases client…) mais également des données dites non structurées, comme l’image et le texte. L’application massive des réseaux de neurones aux problèmes d’analyse de langage naturel et de vision par ordinateur a rendu cette analyse très précise, permettant à un ordinateur de déduire du contenu d’un texte sa thématique et son sentiment, et à partir d’une image de reconnaître les objets présents dans l’image ou d’identifier des personnes...
|
|||
|
|
|||
|
Ainsi, il est illusoire de penser que nos traces laissées sur Internet (données de navigation, mais également posts sur les réseaux sociaux - texte et images, e-mails, données de géolocalisation et autres) sont “noyées” dans une masse de données et sont inutilisables pour obtenir nos informations personnelles. Il est donc important de savoir quel est le sens du partage et de la publication de nos données sur Internet.
|
|||
|
|
|||
|
Soyez conscient des données que vous partagez (et avec qui) :
|
|||
|
|
|||
|
- Votre téléphone portable est une source importante de données personnelles (géolocalisation, contacts, contenu de messages, photos…). Certaines applications mobiles utilisent les autorisations demandées pour “aspirer” le plus de données possibles (données = “pétrole du 21ème siècle”) : un jeu n’a pas besoin d’accéder à toutes les photos et à la localisation de l’utilisateur. De plus, ces applications ne sont pas toujours suffisamment sécurisées : vos données risquent de se retrouver dans la nature en cas de faille de sécurité (en règle générale, il vaut mieux ne jamais faire confiance à la sécurité des serveurs sur lesquelles sont stockées les données : une faille est vite arrivée).
|
|||
|
|
|||
|
- Certaines applications sur vos téléphones peuvent collecter et transmettre vos données de géolocalisation. Certaines ont une certaine légitimité pour utiliser ces données (maps) mais d’autres n’en demandent l’accès que pour revendre vos informations personnelles qui peuvent servir à analyser votre profil. Sachez que ces données permettent de connaître tous les trajets effectués et tous les lieux que vous visitez au cours du temps. Certaines entreprises les utilisent pour envoyer des publicités ciblées. Il est possible de visualiser l’utilisation que google fait de nos données de localisation à cette adresse <https://www.google.com/maps/timeline?pb>
|
|||
|
|
|||
|
- Quand vous vous enregistrez à une application ou un site via votre compte Facebook ou LinkedIn ou Google, vous n’êtes pas seulement en train de gagner du temps en ne remplissant pas un questionnaire - vous donnez accès à certaines données de vos comptes. De plus, connecter différents comptes multiplie les données, donc les risques...
|
|||
|
|
|||
|
- L’entreprise qui détient votre serveur de mails a accès à tous les mails que vous envoyez, recevez ou laissez dans vos brouillons ainsi que les fichiers attachés. Ces données sont généralement scannées automatiquement afin de mieux analyser votre profil, de mieux cibler les publicités qui vous sont destinées, et de mieux définir des tendances globales. Rien n'exclut que vos emails soient lus directement par un employé de la firme.
|
|||
|
|
|||
|
- Vérifier l’accès au micro des applications : cela leur permet théoriquement d’écouter en continu vos discussions (pensez aux applications d’assistants personnels qui s’activent avec certains mots-clefs - il faut donc qu’elles analysent vos données audio en continu) : en détectant certains mots, certains algorithmes sont capables de tirer des informations pouvant servir au profiling d’une personne, …
|
|||
|
|
|||
|
- Les moteurs de recherches (Google, Bing) gardent l’historique des recherches et les associent à des utilisateurs (à travers leurs données de navigation ou simplement de leur connexion à leurs comptes utilisateur) : information précieuse pour déterminer ses centres d’intérêts pour du marketing ou du profiling, ainsi que pour améliorer votre expérience client et fluidifier l’utilisation de leurs services. Lorsque vous partagez vos photos, vous rendez accessible un certain nombre d’information dont vous ne vous en doutiez pas forcément :
|
|||
|
|
|||
|
- Pour apprendre à effectuer une tâche d’intelligence artificielle, une machine a besoin d’exemples. Dans le cas d’algorithmes de reconnaissance faciale, elle a besoin d’avoir plusieurs photos du visage d’une même personne pour arriver à définir les caractéristiques qui lui permettront de l’identifier. Ainsi, lorsque vous taggez quelqu’un sur une photo dans un réseau social, vous êtes en fait en train de créer ces exemples (labelliser des données) et rendez possible pour l’entreprise hébergeant ce contenu de faire tourner des algorithmes de reconnaissance faciale sur cette personne
|
|||
|
|
|||
|
- Extraire de l’information depuis des photos est facile : un réseau de neurones peut aisément reconnaître certains objets (au sens large de la vision par ordinateur) : présence de chats, chiens, humains, arbres, tables… car il existe des bases de données fournies avec des exemples de ce genre d’objets. Mais des informations moins triviales peuvent être déduites par des organismes disposants de bases d’exemples plus fournies et spécifiques :
|
|||
|
- Détection de lieux (permet de traquer les déplacements)
|
|||
|
- Détection de marques (à travers les logos) ou de produits consommés (permet de connaître les habitudes de consommation)
|
|||
|
- Informations sur une personne (genre, âge, ethnie…) (permet de cibler pour un marketing personnalisé)
|
|||
|
- Changements dans la vie d’une personne (mariage, grossesse, enfants, blessure...)
|
|||
|
|
|||
|
Il est donc important de vérifier les droits d’accès des photos ou des posts sur les réseaux sociaux - et de choisir le genre de photos que l’on souhaite partager
|
|||
|
|
|||
|
- Les données du graphe social d’une personnes (et ses interactions avec d’autres) permettent d’inférer des informations à partir de ses contacts dans les réseaux sociaux
|
|||
|
|
|||
|
- Les abonnements, pages aimées et suivies peuvent être utilisées pour déterminer ce qu’une personne aime ainsi que son profil : pub ciblée, orientation politique, profil psychologique (test MBTI à partir des réseaux sociaux)
|
|||
|
Même si vous ne fournissez pas ces données vous même, vos amis et liens sur les réseaux sociaux (Facebook a aussi accès aux données Whatsapp) permettent de déterminer votre graphe de relations et par proximité vos intérêts probables, votre classe sociale et même vos opinions politiques
|
|||
|
|
|||
|
- Des informations sur vos relations peuvent être déduites par des réseaux sociaux. Les données Facebook pourraient servir par exemple à détecter lorsqu’un couple est en train de se former à partir du volume des échanges par messagerie ou des posts sur le mur de l’autre <https://www.facebook.com/notes/facebook-data-science/the-formation-of-love/10152064609253859>
|
|||
|
|
|||
|
- Une précaution très particulière doit être prise au sujet des données personnelles biométriques et de santé :
|
|||
|
- Données biométriques (login à partir des empreintes digitales) : possible de hacker l’identité d’une personne ; il est facile de changer de mot de passe mais pas de changer d’empreinte digitale
|
|||
|
- Le partage de données médicales par Internet (ex. : résultats d’analyses biologiques) doit faire appel à une vigilance accrue au sujet de la sécurité des serveurs (données sensibles) - risque de vol de données
|