scraping de données Archives

Cloud Computing Entrepôts de données Gestion de données Identité numérique LeWebParis Web politique

La guerre des données, dix ans plus tard : de Google à Cambridge Analytica en passant par Nicholas

24 mai 2018

C’est en lisant un statut (ci-dessous) sur le mur Facebook de l’amie et blogueuse fort connue Anne Lataillade que l’idée de ce billet m’a littéralement explosé au visage… Écrire sur le «scraping» de données sur ce blogue, dix ans après l’avoir fait une première fois le 9 janvier 2008. Et pourquoi revenir sur le sujet? Tout simplement parce que personne ou presque ne s’est soucié du phénomène jusqu’au «scandale» de Cambridge Analytica sur l’utilisation des données personnelles de plus de 800 millions d’abonné.e.s Facebook.

Notre petit échange sur Facebook au sujet du «scraping»

À la sortie des premières infos sur cette affaire, j’ai réagi avec une certaine indifférence mais je ne peux rester insensible au fait que tout le monde s’y mette et se scandalise sans savoir que tout le monde le fait en même en cuisine comme le souligne Anne.

Et voilà qu’en plus, «Zuckie» en agneau sacrificiel emblématique de la Silicon Valley, est forcé d’aller témoigner devant les deux chambres du Congrès. Alors là, je me suis dit: mais voyons donc, pourquoi ils en font tout un plat ? Tout le monde le sait depuis au moins dix ans. Et malheureusement, on a vu l’ignorance de ces pauvres sénateurs qui représentent bien leurs électeurs ( voir l’image de couverture). Il n’y a rien de nouveau là et ces politiciens devraient le savoir…

Tous les partis politiques ont, depuis la campagne Obama en 2008, leur propre système avec un nom particulier pour faire du ciblage à partir des réseaux sociaux. De là à passer à la manipulation, le pas est très court mais le monsieur ou la madame qui nous représente choisit de ne rien voir ou mieux de ne rien savoir. Jusque là….

Faut croire que pour beaucoup de monde, hors de la sphère du Web et la techno, c’était de l’inédit, comme s’ils se réveillaient tous d’un coup en 2018 en se disant «Au secours, on tripote dans mes données personnelles !» Désolé groupe mais c’est pratique courante et pas juste avec Facebook. Voici reproduit ci-dessous, le billet que j’ai commis en 2008. Oui, oui, vous lisez bien.

Et en passant, je n’ai pas eu un coup subit de science infuse pour l’écrire. C’était pour… Mais voyez par vous-mêmes:

«Un billet pour partager avec vous mes réflexions à la suite de la lecture du dernier numéro du magazine Wired. Tout d’abord sur le reportage «The Data Wars», écrit par Josh Mchugh et dont j’ai parlé cette semaine en faisant référence au phénomène du «scraping» des données, phénomène courant pour les plates-formes de mise en relation sociale ou professionnelle ( ex: LinkedIn ou Viadeo qui vous proposent de récupérer les adresses de vos contacts dans Outlook ou Gmail)

Dans cette guerre des données, que se livrent, entre autres, Google et Microsoft, l’auteur note que lorsque Microsoft a investi dans Facebook, toutes les plates-formes rivales, dont LinkedIn, se sont vues interdire l’accès au service webmail de Microsoft, ne pouvant plus ainsi «scraper» les noms et adresses email des membres. De plus, plusieurs compagnies, dont Google ont commencé à mettre en place des API pour contrôler et même canaliser le «raclage» de leurs données par d’autres sites ou plates-formes.

Le reportage se termine par une répartie de Reid Hoffman, (le fondateur de LinkedIn) :

«It’s not the place of companies like Yahoo, Microsoft, Facebook or LinkedIn to decide who gets access to their user’s data. It should be up to the users themselves. It’s simple, the individual owns the data, even if it sits in some company’s server farm».

(Google pour ne pas la nommer…) Et on en revient au débat qui a fait rage à la fin de la conférence LeWeb3 à Paris. La propriété des données, leur utilisation à des fins autres entre autres et débattu lors d’un panel sur l’Open Social Initiative, avec sur scène Eric Tholomé, de Google, Marc Mayor, de MySpace (NDLR: oui, oui, ça existait encore) et Éric Didier de Viadeo et dans la salle, rien de moins que Marc Canter.

On en revient aussi à un autre article, toujours paru dans le dernier Wired mais qui est passé presque inaperçu. Il s’agit d’une courte entrevue avec Nicholas Carr, auteur du livre «The Big Switch- Rewiring the world, from Edison to Google». Ce titre dit tout… Sur les intentions de la firme du Mountain View. Dans cette entrevue, il parle des méga-entrepôts de données, des ordinateurs personnels qui vont devenir des terminaux, que Eric Schmidt et Google vont finalement réaliser le rêve de Sun Microsystems : «The network IS the computer». Un seul ordinateur mondial relié aux méga-centres de données et qui créent un «data cloud».

Le méga-entrepôt de serveurs de Google à The Dalles en Orégon

Et Carr y va de cette tirade terrifiante:

«But as systems become more centralized — as personal data becomes more exposed and data-mining software grows in sophistication — the interests of control will gain the upper hand. If you’re looking to monitor and manipulate people, you couldn’t design a better machine.»

Nous ne sommes plus très loin de «Big Brother»… Son livre demeure un must en 2008, en cette année où l’identité numérique et le propriété des données seront, à mon avis, l’enjeu crucial…»

Je ne croyais pas si bien dire mais je me suis quand même trompé de dix ans…

NDLR: Parlant de dix ans, il en aura fallu douze pour que j’atteigne finalement le cap des 1 000 billets. CE BILLET EST LE 1 000e !!! Faut dire que j’ai été occupé à d’autres choses depuis la fin de 2013…

MAJ:

On me fait remarquer de ne pas oublier de parler du RGPD qui entre en vigueur le 25 mai (Règlement général sur le protection des données), qui vise la protection des renseignements personnels pour la zone Euro mais qui nous touchera surtout les entreprises et agences et leurs bases de données mais aussi les individus. Cliquez sur le lien ci-haut pour en savoir plus.

Big Data Identité numérique Internet of Things Internet2 Réalité virtuelle

En 2025, serons-nous des humains augmentés naviguant les Internets de l’univers numérique?

20 mai 2015

Il y a quelques jours, le HuffingtonPost Québec, avec lequel je collabore à l’occasion, m’a demandé d’écrire sur les perspectives technologiques d’ici 2025, une série imaginée pour souligner le 10e anniversaire du HP. Je l’ai fait en deux billets. Le premier sur mon sujet préféré, soit les entreprises et le second dans une perspective plus large, mettant en cause nous tous comme individus et surtout notre rapport avec les technologies émergentes. Comme je n’aime pas les prédictions et les listes, j’ai donc écrit un genre de texte d’anticipation. Lire la suite

Événements Internet of Things Real-Time Web Web 3.0 Web sémantique

Le Web 2.0, so¨passé¨ ?

20 novembre 2010

Il en a été un peu question lors du dernier webcom-Montréal et encore plus à Web 2.0 Summit. Il en sera aussi question à LeWeb à Paris dans quelques jours… Je vais aussi en parler dans ma prochaine conférence, mardi prochain devant les membres de la SQPRP. De quoi au juste ? Que le Web 2.0 perd de son actualité au profit de l’Internet des données et applications ainsi que du Web au carré ou plus communément nommé par Tim O’Reilly, Web Squared. Ce faisant et pour des besoins de mémoire, je tiens à republier le billet que j’ai commis sur ce sujet et qui me semble encore tout frais d’actualité:

C’est Tim Berners-Lee qui a mis le feu aux poudres… Depuis le temps que je vous écris que le Web en 2009-2010 fleurira de vos données «It’s all about Data» et que j’écris sur la guerre des données (Data War) qui se joue entre les grands comme Google, Microsoft, Amazon et autres, une guerre qui a pour armes d’accumulation massive le Cloud Computing, le scraping et la portabilité, je croyais donc le sujet entendu. Eh bien, non… Sir Thimoty, qui se présente toujours comme l’inventeur du World Wide Web (www ou encore W3) est venu en rajouter une couche avec une sortie publique fort remarquée, à la conférence TED, en février dernier.

Il est venu parler du futur Web, donc du Web 3.0 où tout n’est que données liées (Linked Data). Il est surtout venu faire la promotion du W3C SWEO Linking Open Data community project. La simple existence de ce projet et ses possibilités a excité les neurones de plusieurs et valu un super billet de vulgarisation dans ReadWriteWeb, édition française. Mais aussi une réplique de Tim O’Reilly et John Batelle, quelques mois plus tard, dans un webcast préparatoire à la conférence Web 2.0 Summit qui aura lieu en novembre à San Francisco. En effet, on ne détrône pas si facilement O’Reilly de sa paternité chiffresque…

Le SlideShare du webcast de Tim O’Reilly le 25 juin dernier

Il est donc revenu à la charge lors de ce webcast en proposant, comme le mentionne l’ami Fred Cavazza dans un excellent billet d’analyse, un Web intermédiaire, soit de Web Squared ou si vous préférez le Web². Comme l’écrit Fred: «Les explications autour de ce Web² sont résumées dans l’article fondateur suivant : Web Squared: Web 2.0 Five Years On ». C’est un article sur le site de Web 2.0 Summit qui appuie leurs prétentions mais les deux compères ont aussi pris le soin de rédiger un «White Paper» pour officialiser leur paternité sur le thème et l’idée.

Ce qui n’a pas empêché une autre grosse pointure, soit Dion Hinchcliffe de venir rajouter son propre grain de sel avec le billet: The Evolving Web In 2009: Web Squared Emerges To Refine Web 2.0. Hinchcliffe, qui écrit aussi pour ZDNet, donne des ateliers sur l’entreprise 2.0 à la conférence bostonienne Enterprise 2.0 et est, pour le bonheur de ceux et celles qui assistent à ses «workshops», un fervent adepte des schémas. Il a donc pondu le schéma suivant:

Hinchcliffe présente donc le Web² comme une suite logique et naturelle du Web 2.0, une forme d’évolution ou comme le dit Fred de «maturation qui va nous amener vers la prochaine itération majeure», soit le Web 3.0, le Web sémantique où les données et les liens fusionnent, là où se crée finalement une interrelation entre toutes les données afin de finalement donner un sens au Data Cloud, un sens généré au départ par les usagers eux-mêmes comme dans le projet original de Linked Data de Berners-Lee.

Sa croissance est exponentielle. Ce nuage va devenir immense et pas seulement avec les données personnelles et tout ce que cela implique au niveau de leur entreposage et de leur portabilité mais aussi de leur protection et sécurité mais aussi celles des entreprises, à l’externe aussi bien qu’à l’interne… Un immense Cloud planétaire! Certains se réfèrent déjà au concept de Neural Net développé en science fiction et en référence aux travaux sur les Artificial Neural Networks, associés à l’intelligence artificielle. D’autres, comme Thierry Hubert, avec son projet Darwin, parlent de Virtual Cortex, issu directement de la «Théorie du Chaos»…

Bref un SupraNet où des agents intelligents se chargent de faire les corrélations pour récupérer de cet immense et chaotique nuage de données et de liens, les informations pertinentes, requises par les utilisateurs.

Et dire que Gene Roddenberry, il y a bien des années, a décidé de donner un nom très particulier au premier robot à cerveau positronique doté d’intelligence artificielle à apparaître dans sa série Star Trek. Ce nom, vous l’avez deviné, c’est : Data…

Médias sociaux OpenSocialWeb

Quand SlideShare se cherche un modèle d’affaires…

13 octobre 2009

C’est bien connu que les sites et plates-formes du Web 2.0 ont de la difficulté à se définir un vrai modèle d’affaires, de mettre sur pied une structure qui leur permette un apport de revenus régulier et surtout croissant. Il y a la pub ciblée sur les individus mais cela ne suffit pas.

Plusieurs sites et plates-formes se sont donc tournés vers les entreprises, que ce soit LinkedIn ou SecondLife et ont ouvert des sections particulières pour ces dernières. C’est aussi le cas pour SlideShare mais contrairement aux autres, elle n’a semble-t-il pas la prétention d’offrir une vraie version entreprise, même si une section toute spéciale a été ouverte sur la plate-forme..,

J’ai ainsi reçu un courriel de la célèbre communauté de partage de présentations (PowerPoint ou autres) et qui annonce ainsi leur quête du Graal :

«SlideShare Business: LeadShare & AdShare, ROI for even the smallest business & budgets». AdShare, c’est comme le nom le dit la possibilité pour une entreprise de s’annoncer, elle ou ses produits, sur la plate-forme. Quant à LeadShare, voici comment l’équipe présente ce service aux membres : «When someone is browsing your content, LeadShare asks for their contact information. These leads are potential customers you can follow up with and put into your CRM system. The point is to translate interested viewers into real revenues».

Donc, on «scrape» les données des visiteurs et les fournit aux entreprises qui peuvent ainsi faire un «suivi». L’avantage est donc pour les entreprises de mettre des présentations PowerPoint en ligne sur SlideShare afin d’attirer des clients potentiels. Je ne suis pas un spécialiste de la pub mais avec AdShare, c’est une autre façon détournée de faire de la publicité et ainsi de pervertir l’objectif initial de partage gratuit en volontaire d’information.

Ce n’est donc pas une vraie version entreprise mais juste la possibilité pour les entreprises de maintenant annoncer sur SlideShare. De toute façon, je ne vois pas de vraie valeur ajoutée à une version entreprise de partage de présentations.

Je suis puriste ou quoi?