La plateforme de médias sociaux Reddit a récemment poursuivi l'entreprise d'intelligence artificielle Perplexity AI et trois autres entités, les accusant d'être impliquées dans une activité « illégale à l'échelle industrielle » consistant à « récupérer » les commentaires de millions d'utilisateurs de Reddit à des fins commerciales. Le procès accuse les entreprises de concurrence déloyale et d'enrichissement sans cause et allègue que certaines d'entre elles ont violé les lois américaines sur le droit d'auteur.
Un rapport de juin 2024 a révélé que Perplexity AI se livrerait à vol cynique de toute information publiée en ligne et les administrateurs de sites Web ne semblent avoir aucun moyen d'empêcher à cela. Un développeur a découvert que Perplexity AI ignore les instructions du fichier robots.txt, qui contrôle les robots d'indexation (crawlers), et accède aux sites Web pour extraire des informations, même lorsque les administrateurs interdisent l'accès à l'agent utilisateur de l'entreprise. Perplexity AI prétend que son agent utilisateur devrait apparaître sous le nom de "PerplexityBot", mais en réalité, il semble que le vrai agent utilisateur est dissimulé et parcourt les pages Web discrètement.
Dans ce contexte, la plateforme de médias sociaux Reddit a récemment poursuivi l'entreprise d'intelligence artificielle Perplexity AI et trois autres entités, les accusant d'être impliquées dans une activité « illégale à l'échelle industrielle » consistant à « récupérer » les commentaires de millions d'utilisateurs de Reddit à des fins commerciales.
Le procès intenté par Reddit devant un tribunal fédéral de New York vise Perplexity, une société basée à San Francisco qui fabrique un chatbot IA et un « moteur de réponse » concurrençant Google, ChatGPT et d'autres acteurs dans le domaine de la recherche en ligne. Sont également cités dans le procès la société lituanienne de scraping de données Oxylabs UAB, un domaine web appelé AWMProxy que Reddit décrit comme un « ancien botnet russe », et la start-up texane SerpApi, qui mentionne Perplexity comme client sur son site web.
Il s'agit du deuxième procès de ce type intenté par Reddit depuis qu'il a poursuivi en justice une autre grande entreprise d'IA, Anthropic, en juin. Mais le procès intenté est différent en ce sens qu'il ne vise pas seulement une entreprise d'IA, mais aussi des services moins connus sur lesquels l'industrie de l'IA s'appuie pour acquérir les écrits en ligne nécessaires à la formation des chatbots IA.
« Les scrapers contournent les protections technologiques pour voler des données, puis les vendent à des clients avides de matériel de formation. Reddit est une cible de choix, car il s'agit de l'une des collections de conversations humaines les plus importantes et les plus dynamiques jamais créées », a déclaré Ben Lee, directeur juridique de Reddit, dans un communiqué mercredi. Le procès accuse les entreprises de concurrence déloyale et d'enrichissement sans cause et allègue que certaines d'entre elles ont violé les lois américaines sur le droit d'auteur.
Perplexity a déclaré qu'elle n'avait pas encore reçu la plainte, mais qu'elle « se battra toujours avec vigueur pour le droit des utilisateurs à accéder librement et équitablement aux connaissances publiques. Notre approche reste fondée sur des principes et responsable, car nous fournissons des réponses factuelles grâce à une IA précise, et nous ne tolérerons aucune menace contre l'ouverture et l'intérêt public ».
Ryan Schafer, directeur de la réussite client chez SerpApi, a déclaré dans un e-mail : « Nous sommes en total désaccord avec les allégations de Reddit et avons l'intention de nous défendre vigoureusement devant les tribunaux. » Oxylabs a déclaré dans un communiqué qu'elle était « choquée et déçue » et qu'elle « n'hésiterait pas à se défendre contre ces allégations ». « La position d'Oxylabs est qu'aucune entreprise ne devrait revendiquer la propriété de données publiques qui ne lui appartiennent pas », a déclaré Denas Grybauskas, directeur de la gouvernance et de la stratégie de l'entreprise, dans un communiqué. « Il est possible qu'il s'agisse simplement d'une tentative de vendre les mêmes données publiques à un prix gonflé. »
Le scraping de données publiques disponibles en ligne est une pratique courante utilisée par les entreprises et les chercheurs, mais Reddit compare les entreprises qu'il poursuit à des « braqueurs de banque en herbe » qui, ne pouvant pas pénétrer dans le coffre-fort de la banque, s'introduisent à la place dans le camion blindé. Le procès allègue qu'elles contournent les mesures anti-scraping de Reddit tout en « contournant les contrôles de Google et en récupérant directement le contenu de Reddit à partir des résultats du moteur de recherche Google ».
Lee a déclaré que, comme elles ne peuvent pas extraire directement les données de Reddit, « elles masquent leur identité, cachent leur emplacement et dissimulent leurs robots d'indexation afin de voler le contenu de Reddit à partir de Google Search. Perplexity est un client consentant d'au moins l'un de ces robots d'indexation, choisissant d'acheter des données volées plutôt que de conclure un accord légal avec Reddit lui-même ».
Reddit a avancé un argument similaire dans son procès contre Anthropic, alléguant que la société avait ignoré ses demandes de cesser d'utiliser son contenu. Cette affaire a d'abord été portée devant la Cour supérieure de Californie, mais a ensuite été transférée devant un tribunal fédéral et une audience est prévue en janvier. Tout comme les livres et les articles de presse numérisés, les sites web tels que Wikipédia et Reddit sont de véritables mines d'informations écrites qui peuvent aider à enseigner à un assistant IA les schémas du langage humain.
Reddit a déjà conclu des accords de licence avec Google, OpenAI et d'autres entreprises qui paient pour pouvoir entraîner leurs systèmes d'IA à partir des commentaires publics des plus de 100 millions d'utilisateurs quotidiens de Reddit. Ces accords de licence ont aidé la plateforme en ligne, vieille de 20 ans, à lever des fonds avant son introduction en bourse à Wall Street l'année dernière.
Cette plainte intervient alors que Perplexity AI a récemment rendu son navigateur Comet alimenté par l'intelligence artificielle (IA) accessible gratuitement aux utilisateurs du monde entier, mettant ainsi fin à son ancien modèle d'abonnement mensuel à 200 dollars. Conçu comme une alternative aux navigateurs traditionnels, Comet intègre un assistant capable de résumer des pages, d'organiser des tâches et de sélectionner des informations en temps réel.
Parallèlement à cette sortie, Perplexity a également lancé Comet Plus avec le soutien de grands éditeurs, afin de promouvoir un journalisme de qualité directement dans le navigateur. Cette initiative témoigne de l'ambition de Perplexity de contester la domination de Google Chrome tout en promouvant une expérience Internet sans publicité, axée sur la curiosité et accessible à un public plus large.
Et vous ?
Pensez-vous que cette plainte est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
La start-up spécialisée dans l'IA Perplexity déploie des robots d'indexation non déclarés qui se font passer pour des navigateurs Chrome classiques afin de contourner le bloquage des sites web
L'IA est en train de tuer le Web. Elle ruine le trafic et le modèle économique des sites Web, tout en transformant la toile en une immense base de contenus recyclés par des machines sans originalité
Alexis Ohanian, cofondateur de Reddit, prévient que « la majeure partie d'Internet est désormais morte » et cite la « théorie de l'Internet mort »
Vous avez lu gratuitement 664 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.