crazy-toads.github.io/_posts/2017-09-12-big_data_pour_les_nuls.md at master

11 KiB

Raw Permalink Blame History

layout

title

authors

date

slug

description

Règles d’éthiques des big data du point de vue des entreprises

Les sociétés technologiques du XXIe siècle amassent de grandes quantités de données sur leurs utilisateurs. Ces données sont précieuses et elles sont souvent très utiles pour améliorer l’expérience utilisateur (suggestion de contenu susceptible d’intéresser l’utilisateur, accès plus rapide à certaines pages web, ...).

Pour les sociétés à but lucratif fournissant des services gratuits, l’exploitation de leurs données client est une façon efficace de générer du revenu. Pour des sociétés aux services payants, cela leur permet de personnaliser l’offre, améliorer leur service client, leur CRM et leur ciblage parmi beaucoup d’autres applications. Ce nouveau business model soulève nombre de questions d’ordre éthique. Ici, nous établissons quelques règles encadrant l’usage éthique des données des utilisateurs:

Transparence sur l’utilisation des données : communiquer clairement avant et pendant l’utilisation du service sur tous les usages des données personnelles des utilisateurs (expérience utilisateur, publicités ciblées, etc.). Cette information devrait être facilement accessible et non cachée dans des conditions d’utilisation trop longues et au jargon juridique.
Transparence sur l’accès aux données :
- Tous les salariés de la société auront-ils accès aux données personnelles (non agrégées) de tous les utilisateurs ou cet accès sera-t-il restreint à des salariés et à des cas très précis ? Les données (agrégées ou non) pourront-elles être vendues ou mises à disposition d’autres entreprises ?
Y a-t-il une API (interface de programmation applicative) partageant les données utilisateur à des applications tierces ? De quelles données s’agit-il ?
Demander l’accord des utilisateurs avant et pendant l’utilisation du service. Leur permettre de choisir quelles données seront utilisées et comment elles le seront. Par exemple, proposer à un client d’utiliser seulement les données textuelles postées sur Twitter et seulement pour améliorer son expérience utilisateur. En particulier, l’utilisateur doit pouvoir refuser la vente de ses données brutes à des entreprises tierces sans perdre l’accès au service.
Lorsque les résultats des algorithmes impactent les utilisateurs (obtention de crédit, prix des contrats d’assurance,…), s’assurer que les algorithmes utilisés ne discriminent pas selon le sexe, l'âge ou l'ethnie. N’utiliser pour ces algorithmes que les données que les utilisateurs ont consenti à fournir à l’institution. Informer les utilisateurs de l’utilisation d’algorithmes pour des décisions les concernant et leur expliquer leur fonctionnement.
Donner la possibilité à l’utilisateur de télécharger ses données personnelles qui ont été collectées par la société et lui permettre de voir comment elles sont utilisées.
Permettre aux utilisateurs d’effacer effectivement leurs données (et non uniquement les rendre inaccessibles tout en les conservant dans les serveurs), notamment lors de leur désinscription. Rendre cela facile : ne pas cacher la fonctionnalité, rendre l’option facilement accessible et visible lors de la désinscription.

Règles protection des data pour les nuls

Les algorithmes actuels de machine learning permettent à la fois d’analyser des données dites structurées, utilisées classiquement dans des problèmes économétriques (données économiques, de bases client…) mais également des données dites non structurées, comme l’image et le texte. L’application massive des réseaux de neurones aux problèmes d’analyse de langage naturel et de vision par ordinateur a rendu cette analyse très précise, permettant à un ordinateur de déduire du contenu d’un texte sa thématique et son sentiment, et à partir d’une image de reconnaître les objets présents dans l’image ou d’identifier des personnes ...

Ainsi, il est illusoire de penser que nos traces laissées sur Internet (données de navigation, mais également posts sur les réseaux sociaux (texte et images, e-mails, données de géolocalisation et autres) sont « noyées » dans une masse de données et sont inutilisables pour obtenir nos informations personnelles. Il est donc important de savoir quel est le sens du partage et de la publication de nos données sur Internet.

Soyez conscient des données que vous partagez (et avec qui) :

Votre téléphone portable est une source importante de données personnelles (géolocalisation, contacts, contenu de messages, photos…). Certaines applications mobiles utilisent les autorisations demandées pour « aspirer » le plus de données possible (données = « pétrole du XXIe siècle ») : un jeu n’a pas besoin d’accéder à toutes les photos et à la localisation de l’utilisateur. De plus, ces applications ne sont pas toujours suffisamment sécurisées : vos données risquent de se retrouver dans la nature en cas de faille de sécurité (en règle générale, il vaut mieux ne jamais faire confiance à la sécurité des serveurs sur lesquelles sont stockées les données : une faille est vite arrivée).
Certaines applications sur vos téléphones peuvent collecter et transmettre vos données de géolocalisation. Certaines ont une certaine légitimité pour utiliser ces données (maps) mais d’autres n’en demandent l’accès que pour revendre vos informations personnelles qui peuvent servir à analyser votre profil. Sachez que ces données permettent de connaître tous les trajets effectués et tous les lieux que vous visitez au cours du temps. Certaines entreprises les utilisent pour envoyer des publicités ciblées. Il est possible de visualiser l’utilisation que Google fait de nos données de localisation à cette adresse https://www.google.com/maps/timeline?pb
Quand vous vous enregistrez sur une application ou un site via votre compte Facebook, LinkedIn ou Google, vous n’êtes pas seulement en train de gagner du temps en ne remplissant pas un questionnaire – vous donnez accès à certaines données de vos comptes. De plus, connecter différents comptes multiplie les données, donc les risques …
L’entreprise qui détient votre serveur de mails a accès à tous les mails que vous envoyez, recevez ou laissez dans vos brouillons ainsi qu’aux fichiers attachés. Ces données sont généralement scannées automatiquement afin de mieux analyser votre profil, de mieux cibler les publicités qui vous sont destinées, et de mieux définir des tendances globales. Rien n'exclut que vos e-mails soient lus directement par un employé de la firme.
Vérifier l’accès au micro des applications : cela leur permet théoriquement d’écouter en continu vos discussions (pensez aux applications d’assistants personnels qui s’activent avec certains mots clefs – il faut donc qu’elles analysent vos données audio en continu) : en détectant certains mots, certains algorithmes sont capables de tirer des informations pouvant servir au profiling d’une personne…
Les moteurs de recherche (Google, Bing) gardent l’historique des recherches et les associent à des utilisateurs (à travers leurs données de navigation ou simplement de leur connexion à leurs comptes utilisateur) : information précieuse pour déterminer vos centres d’intérêt pour du marketing ou du profiling, ainsi que pour améliorer votre expérience client et fluidifier l’utilisation de leurs services. Lorsque vous partagez vos photos, vous rendez accessible sans vous en douter un certain nombre d’informations :
Pour apprendre à effectuer une tâche d’intelligence artificielle, une machine a besoin d’exemples. Dans le cas d’algorithmes de reconnaissance faciale, elle a besoin d’avoir plusieurs photos du visage d’une même personne pour arriver à définir les caractéristiques qui lui permettront de l’identifier. Ainsi, lorsque vous taguez quelqu’un sur une photo dans un réseau social, vous êtes en fait en train de créer ces exemples (labelliser des données) et rendez possible pour l’entreprise hébergeant ce contenu de faire tourner des algorithmes de reconnaissance faciale sur cette personne.
Extraire de l’information depuis des photos est facile : un réseau de neurones peut aisément reconnaître certains objets (au sens large de la vision par ordinateur) : présence de chats, chiens, humains, arbres, tables… car il existe des bases de données fournies avec des exemples de ce genre d’objets. Mais des informations moins triviales peuvent être déduites par des organismes disposants de bases d’exemples plus fournies et spécifiques :
- Détection de lieux (permet de traquer les déplacements).
- Détection de marques (à travers les logos) ou de produits consommés (permet de connaître les habitudes de consommation).
- Informations sur une personne – genre, âge, ethnie… (permet de cibler pour un marketing personnalisé).
- Changements dans la vie d’une personne (mariage, grossesse, enfants, accident…).

Il est donc important de vérifier les droits d’accès des photos ou des posts sur les réseaux sociaux – et de choisir le genre de photos que l’on souhaite partager.

Les données du graphe social d’une personne (et ses interactions avec d’autres) permettent d’inférer des informations à partir de ses contacts dans les réseaux sociaux.
Les abonnements, pages aimées et suivies peuvent être utilisés pour déterminer ce qu’une personne aime, ainsi que son profil : pub ciblée, orientation politique, profil psychologique (test MBTI à partir des réseaux sociaux).
Même si vous ne fournissez pas ces données vous-même, vos amis et liens sur les réseaux sociaux (Facebook a aussi accès aux données WhatsApp) permettent de déterminer votre graphe de relations et par proximité vos intérêts probables, votre classe sociale et même vos opinions politiques.
Des informations sur vos relations peuvent être déduites par des réseaux sociaux. Les données Facebook pourraient servir par exemple à détecter lorsqu’un couple est en train de se former à partir du volume des échanges par messagerie ou des posts sur le mur de l’autre. https://www.facebook.com/notes/facebook-data-science/the-formation-of-love/10152064609253859
Une précaution très particulière doit être prise au sujet des données personnelles biométriques et de santé :
- Données biométriques (login à partir des empreintes digitales) : possible de hacker l’identité d’une personne ; il est facile de changer de mot de passe mais pas de changer d’empreinte digitale.
- Le partage de données médicales par Internet (ex. : résultats d’analyses biologiques) doit s’accompagner d’une vigilance accrue au sujet de la sécurité des serveurs (données sensibles) – risque de vol de données.

11 KiB Raw Permalink Blame History Unescape Escape

Règles d’éthiques des big data du point de vue des entreprises

Règles protection des data pour les nuls

11 KiB

Raw Permalink Blame History