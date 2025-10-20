Cette affaire sinscrit dans un débat plus large sur lusage des uvres protégées par le droit d'auteur pour lentraînement de lIA. OpenAI a récemment soutenu que restreindre cet accès mettrait fin à la « course à lIA » et désavantagerait les États-Unis face à la Chine. Lentreprise a plaidé pour que lexploitation de contenus soumis au droit dauteur soit couverte par le principe du « fair use », tandis que les créateurs dénoncent une violation de leurs droits et une menace pour leur subsistance.
Pourtant, certaines initiatives académiques démontrent quil est possible de concilier innovation et respect du droit dauteur. Une équipe de chercheurs rassemblée autour dEleutherAI a constitué un jeu de données de 8 To composé uniquement de contenus libres ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres aux performances comparables à celles de LLaMA 2-7B de Meta, prouvant quune IA performante peut être développée sans recourir à des données piratées.
Dans un geste qui souligne les tensions croissantes entre les industries créatives et les développeurs d'IA, le géant du cloud computing Salesforce Inc. se retrouve dans le collimateur d'un recours collectif intenté par les romancières Molly Tanzer et Jennifer Gilmore.
La plainte, déposée devant le tribunal fédéral de San Francisco, accuse l'entreprise d'avoir enfreint les droits d'auteur en utilisant sans autorisation des milliers de livres pour entraîner ses modèles d'IA xGen. Les auteures affirment que le logiciel de Salesforce a traité le langage provenant de copies piratées de leurs uvres, notamment « Creatures of Will and Temper » de Molly Tanzer et « The Mothers » de Jennifer Gilmore, dans le cadre d'un ensemble de données plus large qui proviendrait de bibliothèques en ligne non autorisées.
Le procès met en évidence l'aveu de Salesforce dans un document de recherche publié en 2023, selon lequel l'entreprise aurait entraîné son IA à partir d'un ensemble de données appelé « The Pile », qui contiendrait plus de 800 gigaoctets de texte provenant de livres obtenus par le biais de bibliothèques parallèles telles que Bibliotik. Les plaignantes affirment qu'il s'agit là d'une violation délibérée et réclament des dommages-intérêts ainsi qu'une injonction visant à mettre fin à l'utilisation de tels modèles.
Les implications plus larges pour les pratiques de formation de l'IA
Cette affaire s'inscrit dans une vague de contestations judiciaires similaires à l'encontre d'entreprises technologiques, notamment des poursuites contre OpenAI et Meta Platforms Inc., où les créateurs allèguent une utilisation non autorisée de matériel protégé par le droit d'auteur pour alimenter l'IA générative. Selon un rapport, les auteurs affirment que Salesforce a non seulement utilisé des livres piratés pour la formation, mais a également tenté de dissimuler cette pratique en supprimant les références des divulgations publiques après les premières révélations.
Les spécialistes du secteur soulignent que les modèles xGen de Salesforce, conçus pour le traitement du langage naturel dans des applications d'entreprise telles que la gestion de la relation client, s'appuient sur de vastes ensembles de données pour atteindre des performances élevées. Pourtant, la plainte détaille comment l'entreprise aurait ingéré près de 200 000 livres provenant de sources illicites, soulevant des questions sur l'éthique de l'approvisionnement en données à une époque où l'IA fait partie intégrante des opérations commerciales.
Preuves et aveux sous les projecteurs
Les documents judiciaires citent des communications internes de Salesforce, notamment un message GitHub d'un employé reconnaissant l'utilisation de l'ensemble de données The Pile, connu pour contenir des uvres protégées par le droit d'auteur sans licence. Les plaignants, représentés par d'éminents avocats spécialisés dans la propriété intellectuelle, ont pour objectif de représenter un groupe pouvant compter plusieurs milliers d'auteurs dont les livres ont été exploités de la même manière.
Le procès exige non seulement une compensation financière, mais aussi la destruction de tous les modèles d'IA entraînés à partir de données contrefaites. Les détails de la plainte soulignent l'ampleur de la contrefaçon présumée impliquant des outils d'IA basés sur le cloud qui alimentent la plateforme Einstein de Salesforce.
Parallèles avec les batailles juridiques en cours sur les droits d'auteur liés à l'IA
Ce litige fait écho à des débats plus larges au sein du secteur, tels que le procès intenté par le New York Times contre Microsoft et OpenAI concernant l'utilisation d'articles de presse. Selon les experts juridiques, si elle aboutit, l'affaire Tanzer-Gilmore pourrait contraindre les entreprises spécialisées dans l'IA à adopter des modèles de licence transparents ou à faire face à des responsabilités croissantes.
Pour Salesforce, leader des logiciels CRM avec une capitalisation boursière dépassant les 250 milliards de dollars, ce procès représente un risque pour sa réputation alors qu'il se lance dans l'analyse basée sur l'IA. Les publications en ligne des observateurs reflètent le sentiment des créateurs, avec des utilisateurs comme Ed Newton-Rex soulignant la vague « inspirante » de tels procès comme preuve de la résistance contre la formation incontrôlée de l'IA.
Conséquences potentielles et changements dans le secteur
Les analystes prévoient que le règlement de cette affaire pourrait prendre des années et être porté devant la Cour suprême si elle repose sur les doctrines d'utilisation équitable prévues par la loi américaine sur le droit d'auteur. La plainte fait référence aux propres documents de recherche de Salesforce, qui ont initialement divulgué l'ensemble de données, mais qui ont ensuite été modifiés.
Dans le même temps, les auteurs et les éditeurs se montrent de plus en plus vigilants, des organisations telles que l'Authors Guild soutenant des actions similaires. Ce litige pourrait accélérer les appels en faveur d'une réglementation fédérale sur les pratiques en matière de données d'IA, obligeant les entreprises à négocier des redevances ou à demander des autorisations explicites pour les supports de formation.
Perspectives d'avenir : trouver l'équilibre entre innovation et droits
Alors que l'IA s'impose dans tous les secteurs, de la finance à la santé, des affaires comme celle-ci testent les limites entre innovation et protection de la propriété intellectuelle. La réponse de Salesforce sera suivie de près, car elle pourrait influencer la manière dont les entreprises...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.