Le web scraping désigne l’ensemble des techniques permettant d’extraire le contenu des sites web par le biais de logiciel d’extraction. Cette pratique peut être assimilée au "negative SEO".
C’est une pratique commerciale effectuée par des entreprises consistant à récupérer, à extraire des données d’internautes publiquement accessibles sur Internet, pour ensuite pouvoir les enregistrer et les réutiliser dans un but commercial, ou les stocker pour qu’elles soient analysées.
Cette opération est assimilable à un « copier-coller » automatique des informations sur les sites visés.
Ces données collectées peuvent être de tout ordre, telles que des coordonnées comme des adresses électroniques ou des numéros de téléphones, mais également des mots clés individuels ou d’URL.
Toutefois, cette pratique du web scraping peut être encadrée afin de respecter le Règlement Général de Protection des Données Personnelles, (ci-après « RGPD ») et les recommandations de la Commission Nationale de l’Informatique et des Libertés, (ci-après la « CNIL »).
Ainsi, il est important de respecter les recommandations de la CNIL pour assurer la conformité de votre société au regard du RGPD.
Le fonctionnement du web scraping
Il existe deux types de scraping :
- Le scraping manuel qui consiste à copier et insérer manuellement des informations et des données. Il est utilisé pour trouver et enregistrer des informations de manière ponctuelle ;
- Le scraping automatique, quant à lui, est effectué par un logiciel ou un algorithme qui va référencer plusieurs sites pour extraire un grand nombre d’informations.
Le but du web scraping consiste à récolter rapidement des données de contact ou des informations spécifiques.
Les professionnels ont souvent recours à ces pratiques afin d’accéder à des avantages par rapport à des concurrents, notamment en ce qu’il permet aux sociétés de consulter d’autres produits et de les comparer avec les siens.
C’est pourquoi, il est important de souligner que ces pratiques ne sont pas toujours légales.
Les pratiques contestées
Il est reproché aux entreprises ayant recours aux logiciels d’extraction ou à d’autres outils aux fins de pratiquer le web scraping :
- L’absence d’information des personnes démarchées, en particulier sur la source des données ;
- Le défaut de consentement des personnes avant d’être démarchées par message électronique ou automate d’appel par les sociétés faisant la promotion de leur produits ou services ;
- Le nonrespect du droit d’opposition des personnes[1]
C’est pourquoi, en France, pratiquer le web scraping sans limite est risqué et réprimandé.
Les sanctions encourues
Au regard du droit français, la pratique de web scraping est contraire à certaines dispositions du droit pénal, du droit de la concurrence et de du droit de la propriété intellectuelle.
De surcroit, récupérer des données d’internautes même publiquement accessibles sur internet est une pratique qui, dans certains cas, n’est pas conforme de la Loi Informatique et liberté et au RGPD.
Ces données, bien que publiques et accessibles sur internet, ne sont pas moins des données personnelles. Dès lors, elles ne sont pas librement réutilisables par tout responsable de traitement et ne peuvent être réexploitées à l’insu de la personne concernée.
Par conséquent, puisque la notion de web scraping est une notion transversale à plusieurs disciplines, elle n’est pas appréhendée et réprimandée de la même manière selon les différentes branches du droit.
- Le web scraping au regard du droit pénal
Le droit pénal condamne cette pratique au regard de l’article 323-3 du Code pénal qui prévoit que :
« Le fait d'introduire frauduleusement des données dans un système de traitement automatisé, d'extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu'il contient est puni de cinq ans d'emprisonnement et de 150 000 € d'amende ».
Toutefois, il est nécessaire de prouver l’intention frauduleuse et donc volontaire de pratiquer le web scraping.
- Le web scraping au regard du droit de la concurrence
En droit de la concurrence, le web scraping peut être assimilé à un acte de concurrence déloyale, ou à un acte de parasitisme en ce que la société ayant recours à de telles pratiques n’a pas fourni les mêmes efforts que le titulaire du site web pour parvenir à collecter les données.
Ces pratiques commerciales déloyales sont prévues et réprimandées par l’article L. 121-1 du Code de la consommation . Elle sont susceptibles de causer un préjudice au site web qui en « est victime ».
Par conséquent, il est possible de sanctionner cet acte de parasitisme sur le fondement de l’article 1240 du Code civil, en ce qu’il cause un préjudice au site web puisque l’utilisateur de web scraping dans le sillage du site web tire profit, sans rien dépenser, de ces effets de son savoir-faire et de sa notoriété.
Dans ce cas, ce n’est pas la pratique qui est sanctionnée mais l’utilisation frauduleuse des données récupérées.
- Le web scraping au regard du droit de la propriété intellectuelle
Le web scraping est à la lisière des droits d’auteur et en matière de droits d’auteur l’article L. 342-1 du Code de la propriété intellectuelle prévoit que :
« Le producteur de base de données a le droit d’interdire l’extraction par transfert permanent ou temporaire de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu d’une base de données sur un autre support, par tout moyen et sous toute forme que ce soit ».
Aux termes du droit de la propriété intellectuelle, là encore ce n’est pas directement le web scraping qui est sanctionné mais l’utilisation sans modification substantielle des données récupérées.
Décision de la cour de justice de l’Union européenne :
La cour de justice de l’Union européenne en 2013, dans l’affaire Innoweb BV c. Wegener ICT Media BV a interprété la directive 96/9/CE concernant la protection juridique des bases de données, cette dernière indiquant :
« Les États membres prévoient pour le fabricant d'une base de données le droit d'interdire l'extraction et/ou la réutilisation de la totalité ou d'une partie substantielle, évaluée de façon qualitative ou quantitative, du contenu de celle-ci, lorsque l'obtention, la vérification ou la présentation de ce contenu attestent un investissement substantiel du point de vue qualitatif ou quantitatif » (Dir. n° 96/9/CE, 11 mars 1996, précitée, art. 7.1) étant précisé que « L'extraction et/ou la réutilisation répétées et systématiques de parties non substantielles du contenu de la base de données qui supposeraient des actes contraires à une exploitation normale de cette base, ou qui causeraient un préjudice injustifié aux intérêts légitimes du fabricant de la base, ne sont pas autorisées » (Dir. n° 96/9/CE, 11 mars 1996, précitée, art. 7.5).
La cour de justice a indiqué que l’utilisation d’un méta moteur de recherche constituait une réutilisation d’une partie substantielle du contenu de la base de données sans aucune action de modification. Là encore, c’est l’acte d’utilisation des données scapées qui est sanctionné.
C’est la solution qui est reprise en France, par l’arrêt de la cour d’appel de Paris du 23 mars 2012, dans l’affaire Ryanair v. Opodo.
Les recommandations de la CNIL
Sur la question de la collecte et l’extraction des données personnelles sur Internet, la CNIL recommande de respecter les principes généraux, à savoir :
- Recueillir un consentement libre, spécifique, éclairé et univoque (conformément à l’article 6.1.a du RGPD sur le consentement) ;
- Respecter le droit d’opposition prévu par le RGPD (article 21 du RGPD sur le droit d’opposition).
Du coté des sociétés utilisant un logiciel d’aspiration des données, la CNIL met en garde et conseille de :
- Vérifier la nature et l’origine des données : certains logiciels extraient des informations à partir de sites web dont les CGU interdisent l’aspiration et la réutilisation des données à des fins commerciales ;
- Minimiser la collecte de données : la collecte de données doit être réduite à ce qui est strictement nécessaire, et se montrer vigilent sur la collecte d’informations non pertinentes, excessives ou sensibles (sur la santé, religion, orientation sexuelle etc.) ;
- Informer les personnes concernées par le traitement de leurs données : les sociétés, au plus tard au moment de la première communication avec les personnes dont les données sont traitées doivent fournir les informations prévues à l’article 14 du RGPD et notamment celle relatives à la source des données. L’information doit être concise, compréhensible et aisément accessible aux personnes concernées ;
- Encadrer la relation avec les sous-traitants : les parties doivent respecter l’article 28 du RGPD en définissant : l’objet et la durée du traitement, la nature et la finalité du traitement, le type de données personnelles, les catégories de personnes concernées, les obligations et les droits du responsable du traitement.
- Réaliser, si nécessaire, une analyse d’impact relative à la protection des données (AIPD) : cela n’est pas obligatoire mais permet de s’assurer que le traitement des données envisagé est conforme au RGPD.
[1]https://www.cnil.fr/fr/la-reutilisation-des-donnees-publiquement-accessibles-en-ligne-des-fins-de-demarchage-commercial