Le web scraping consiste à utiliser des moyens technologiques -notamment logiciels- pour collecter industriellement des données publiques présentes sur des supports digitaux sur Internet. Il peut s’agir de tous types de supports, comme des blogs ou des sites web. L’objectif de la collecte réalisée par le web scraping consiste à les restituer de manière organisée dans une base de données.
L’intérêt du web scraping est multiple. Certaines entreprises l'utilisent dans le but d’alimenter leur veille concurrentielle, d’autres pour enrichir leur propre base de données. La régularité de ces opérations permet d’offrir aux utilisateurs de ces outils de web scraping un véritable « trésor de données » qu’ils peuvent réutiliser par la suite dans de multiples cas d’usages : construction d’une stratégie de pricing et de prédiction de la demande, étude du paysage concurrentiel de leur entreprise, alimentation de modèles d’intelligence artificielle, enrichissement pertinent de données internes à l’entreprise…
Une question essentielle vient vite à l’esprit quand nous parlons de web scraping : est-ce que cette pratique est légale ?
Le cas de Ryanair
Un tribunal américain a jugé que Booking.com avait violé le Computer Fraud and Abuse Act en accédant à une partie du site web de Ryanair sans son autorisation, selon des documents judiciaires.
La Computer Fraud and Abuse Act (CFAA) est une loi du gouvernement fédéral américain mise en vigueur en 1986 qui porte sur la sécurité des systèmes d'information. Il s'agit d'un amendement à une loi sur les fraudes informatiques qui fait maintenant partie du Comprehensive Crime Control Act of 1984. Cette loi interdit tout accès à un ordinateur sans autorisation préalable ou tout accès qui excède les autorisations.
La compagnie aérienne, la plus importante d'Europe en nombre de passagers, a lancé ces dernières années une série d'actions en justice contre des plateformes de réservation tierces qui revendent ses billets sans autorisation. Elle affirme que ces sociétés, qui utilisent des logiciels de capture d'écran pour trouver et revendre des billets, ajoutent des frais supplémentaires et compliquent la tâche de la compagnie pour contacter les passagers.
Le jury du tribunal de district du Delaware a conclu à l'unanimité que Booking.com avait violé la loi sur la fraude et les abus informatiques et qu'il avait incité un tiers à accéder sans autorisation à certaines parties du site web de Ryanair « dans l'intention de frauder », selon le verdict. Le tribunal a également rejeté les demandes reconventionnelles de Booking.com selon lesquelles Ryanair avait diffamé la plateforme de réservation et que la compagnie aérienne se livrait à une concurrence déloyale.
Envoyé par Ryanair
Dans une déclaration, Booking.com s'est dit déçu par cette décision, avec laquelle il n'est pas d'accord. « Nous maintenons que le fait de permettre aux clients d'accéder aux tarifs et de les comparer dans l'ensemble de l'industrie du voyage favorise le choix des consommateurs, et nous prévoyons de faire appel », a ajouté le site.
« Nous espérons que cette décision mettra fin au piratage sur Internet et à la surfacturation dont sont victimes les compagnies aériennes, les autres sociétés de voyage et les consommateurs, du fait de l'activité illégale des OTA (agences de voyage en ligne) Pirates », a déclaré Michael O'Leary, directeur général de Ryanair. Il a déclaré qu'il espérait que cette décision obligerait les agences de protection des consommateurs de Grande-Bretagne et d'Europe à prendre des mesures pour interdire le grattage d'écran illégal et la surfacturation des consommateurs pour les vols et les services auxiliaires.
Ces derniers mois, Ryanair a signé des accords avec un certain nombre d'agences de voyage en ligne pour la revente autorisée des billets de la compagnie aérienne.
Une Cour de justice estime qu'il n'est pas illégal de collecter des données publiques d'un site
HiQ effectue du web scraping de profils publics des utilisateurs de LinkedIn, puis les utilise pour aider les entreprises à mieux comprendre leurs propres effectifs. Le web scraping est une technique permettant l'extraction des données d'un site via un programme, un logiciel automatique ou un autre site. L'objectif est donc d'extraire le contenu d'une page d'un site de façon structurée. Le scraping permet ainsi de pouvoir réutiliser ces données.
Après avoir toléré les activités de web scraping de hiQ pendant plusieurs années, LinkedIn a envoyé à la société une lettre de cessation et d'abstention en 2017 lui demandant de cesser de collecter des données à partir de profils LinkedIn. LinkedIn a notamment fait valoir que hiQ violait la Computer Fraud and Abuse Act, la principale loi antipiratage des États-Unis.
Cela représentait une menace existentielle pour hiQ car le site Web de LinkedIn est la principale source de données de hiQ sur les employés de ses clients. HiQ a donc poursuivi LinkedIn en justice, cherchant non seulement à déclarer que ses activités de web scraping ne constituaient pas un piratage, mais également une ordonnance interdisant à LinkedIn d’interférer.
Un tribunal de première instance s’est rangé du côté de hiQ en 2017. Début septembre 2019, la Cour d’appel du 9e circuit a entériné la décision de la juridiction inférieure, estimant que la loi sur la fraude et les abus informatiques ne s’appliquait tout simplement pas aux informations accessibles au grand public.
« La CFAA a été promulguée pour empêcher toute intrusion intentionnelle dans l'ordinateur de quelqu'un d'autre, notamment le piratage informatique », a écrit un panel de trois juges. La cour a noté que lorsque les législateurs débattaient de cette loi, des analogies avec des crimes physiques tels que l'introduction par effraction ont été faites à plusieurs reprises. Du point de vue du neuvième circuit, cela implique que la CFAA ne s’applique qu’aux systèmes d’information ou informatiques qui étaient au départ privés, ce que les propriétaires de sites Web signalent généralement avec un mot de passe.
D'ailleurs en octobre de cette année-là, la 9e Cour d’appel du circuit des États-Unis a confirmé l’injonction préliminaire d’août 2017 exigeant que LinkedIn permette à hiQ Labs Inc d’avoir accès aux profils de membres disponibles au public. La décision à l'unanimité de la cour d’appel de San Francisco a penché en faveur de hiQ sur la question du Web scraping qui, selon les critiques, peut être assimilé à un vol ou à la violation de la vie privée des utilisateurs.
Une activité encadrée
En fonction de la position géographique, les règles ne sont pas nécessairement les mêmes. Dans le droit français, le web scraping est encadré par l’article L. 342-3 du Code de la propriété intellectuelle, qui autorise les pratiques suivantes :
- L'extraction ou la réutilisation d'une partie non substantielle appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès. Cela signifie que le propriétaire du site web peut limiter le contenu pouvant être collecté de son site, en le précisant dans ses conditions générales d’utilisation.
- L’extraction à des fins privées est autorisée, dans le respect des dispositions législatives et réglementaires en matière de droits d’auteurs et de droits voisins sur les œuvres ou les éléments incorporés dans la base.
- L’extraction et la réutilisation d’une partie substantielle, appréciée de façon qualitative ou quantitative, à des fins exclusives d’illustration dans le cadre de l’enseignement et de la recherche et pour un public composé d’élèves, d’étudiants, d’enseignants ou de chercheurs directement concernés. Ainsi, ce cas de figure étant limité à des fins pédagogiques, il est totalement exclu de faire usage des données extraites à titre commercial par exemple.
Plusieurs sanctions peuvent s’appliquer en cas de violation des règles du web scraping :
- L’article 323-3 du code pénal punit de 150.000 euros d’amende et cinq d’emprisonnement « le fait d'introduire frauduleusement des données dans un système de traitement automatisé, d'extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu'il contient ». Bien entendu, il faut pouvoir prouver l’intention frauduleuse du web scraping dans ce cas là.
- En droit de la concurrence, le web scraping peut être qualifié d’un acte de concurrence déloyale ou de parasitisme, si les critères de qualification sont remplis. Dans ce cas, le site web victime pourra intenter une action en responsabilité délictuelle et l’auteur du web scraping pourra être condamné au paiement de dommages et intérêts.
- L’auteur du web scraping peut également être sanctionné sur le fondement de la propriété intellectuelle en cas de non-respect de l’article L. 342-3 du Code de la propriété intellectuelle.
- Enfin, la CNIL (Commission Nationale de l'Informatique et des Libertés), qui a un pouvoir de contrôle et de sanction en matière de RGPD, peut sanctionner des pratiques de web scraping litigieuses sur le fondement du non-respect de la protection des données personnelles.
Sources : Ryanair, maître Marie Marcotte
Et vous ?
Quelle est votre opinion sur le web scraping ? Considérez-vous cette pratique comme légitime ou pensez-vous qu’elle viole la confidentialité des données ? Comment est-elle encadrée dans votre pays ?
Pensez-vous que les entreprises devraient avoir le droit de protéger leurs données contre le web scraping ? Quel serait, selon vous, l’équilibre entre l’accès libre aux informations en ligne et la protection des droits des propriétaires de sites Web ?
Comment les tribunaux devraient-ils évaluer les cas de web scraping ? Pensez-vous que les juges devraient se concentrer davantage sur les droits de propriété intellectuelle ou sur l’intérêt public ?
Quelles mesures les entreprises devraient-elles prendre pour se protéger contre le web scraping ? Partagez vos idées sur les meilleures pratiques pour prévenir le scraping non autorisé.
Pensez-vous que le web scraping peut être bénéfique dans certains contextes ? Voyez-vous des avantages légitimes à l’extraction de données à des fins de recherche, d’analyse ou d’innovation ?