
L'entraînement des grands modèles de langage (LLM) sur des livres achetés légalement sans l'autorisation des auteurs constitue un « usage loyal ». C'est la décision rendue par le juge fédéral américain William Alsup dans une action en justice contre Anthropic pour violation de droit d'auteur. Cette décision inédite constitue une victoire importante pour l'industrie de l'IA, mais met également en garde toutes les entreprises qui espèrent que le même raisonnement s'appliquera à l'entraînement sur des copies pirates de livres, une question qui reste en suspens. À ce propos, Anthropic fera l'objet d'un procès pour avoir piraté des millions de livres sur Internet.
Contexte
En août 2024, les auteurs Andrea Bartz, Charles Graeber et Kirk Wallace Johnson ont intenté un recours collectif contre Anthropic dans le district nord de la Californie. L'action en justices accuse Anthropic, développeur de Claude AI, d'avoir entraîné son chatbot sur des copies pirates de livres protégés par le droit d'auteur, sans consentement ni compensation. Mais Anthropic soutient que l'entraînement de l'IA sur des œuvres protégées relève de l'usage loyal.
En avril 2025, Anthropic a déposé son opposition à la requête en certification de recours collectif, arguant qu'un recours collectif en matière de droit d'auteur portant sur des millions de livres n'était pas gérable et que les questions étaient trop distinctes pour être résolues dans le cadre d'un recours collectif.
Dans le cadre de cet argument, Anthropic a mis en garde contre « la perspective de dommages-intérêts légaux ruineux - 150 000 dollars multipliés par 5 millions de livres » : cela représenterait 750 milliards de dollars. Un mois plus tard, une audience a eu lieu concernant la requête d'Anthropic en vue d'obtenir un jugement sommaire sur l'usage loyal, qui a examiné dans quelle mesure l'utilisation des œuvres en question pouvait être qualifiée d'usage loyal.
Anthropic remporte une victoire importante concernant l'usage loyal
Le juge William Alsup, de la cour fédérale du district nord de Californie, a rendu un jugement sommaire en faveur d'Anthropic, estimant que l'utilisation des livres protégés par le droit d'auteur à des fins de formation et le passage du format papier au format numérique constituent tous deux un « usage loyal ». Il s'agit d'une décision inédite en faveur de l'industrie de l'IA, mais elle est surtout limitée aux livres physiques qu'Anthropic a achetés et numérisés.
Cette affaire diffère des autres poursuites judiciaires dans lesquelles les auteurs allèguent que les modèles d'IA risquent de copier et de diffuser leurs œuvres. Étant donné que les auteurs qui ont poursuivi Anthropic n'ont pas allégué que les productions d'Anthropic reproduisaient leurs œuvres ou leur style expressif, le juge a estimé qu'il n'y avait aucune menace que le générateur de texte d'Anthropic, Claude, puisse remplacer les auteurs sur leurs marchés.
Ce qui a fait pencher le jugement en faveur d'Anthropic. « Comme tout lecteur aspirant à devenir écrivain, les LLM d'Anthropic ont été formés sur des œuvres non pas pour les devancer et les reproduire ou les supplanter, mais pour prendre un virage difficile et créer quelque chose de différent », a écrit le juge. Selon les auteurs, le fait que Claude s'appuie sur leurs textes pourrait générer des résumés concurrents ou des versions alternatives de leurs histoires.
Mais le juge William Alsup a rejeté l'argument des plaignants. Il a affirmé que ces plaintes revenaient à affirmer que « former les écoliers à bien écrire entraînerait une explosion d'œuvres concurrentes ». « Ce n'est pas le type de concurrence ou de déplacement créatif qui préoccupe la loi sur le droit d'auteur. La loi vise à promouvoir les œuvres originales des auteurs, et non à protéger les auteurs contre la concurrence », a écrit le juge William Alsup.
Anthropic se dit « satisfait » de la décision et a publié une déclaration saluant la reconnaissance par le tribunal du fait que « l'utilisation d'œuvres pour former de grands modèles de langage est transformative, et ce de manière spectaculaire ». Cependant, l'entreprise n'est pas tirée d'affaire pour autant.
Anthropic reste en difficulté pour avoir piraté des millions de livres
Malgré sa victoire, Anthropic doit toujours faire face à un procès pour piratage, pour lequel le juge William Alsup a estimé qu'il ne s'agissait pas d'une utilisation équitable. Anthropic est accusé d'avoir téléchargé jusqu'à sept millions de livres piratés afin de constituer une bibliothèque de recherche où les copies seraient conservées « à jamais », qu'elles aient été utilisées ou non dans le cadre de l'entraînement de ses grands modèles de langage.
Ayant apparemment compris que le piratage pouvait entraîner des poursuites judiciaires, Anthropic a ensuite tenté de remplacer les livres piratés par des copies achetées légalement. Toutefois, l’entreprise a également soutenu que même la copie initiale de ces livres piratés constituait une étape « intermédiaire » nécessaire pour permettre un usage transformateur dans l’entraînement de l’IA. Un argument largement controversé que le tribunal a rejeté.
Et, argument peut-être le moins convaincant, Anthropic a également fait valoir que, puisqu'il aurait pu emprunter les livres qu'il a initialement volés (piratés), le vol en lui-même ne devrait pas « court-circuiter » l'analyse de l'usage loyal. Mais le juge William Alsup n'a pas été convaincu par ce dernier non plus.
Il a souligné que la copie de livres à partir d'un site pirate constitue une violation du droit d'auteur. Il a rejeté l'hypothèse d'Anthropic selon laquelle l'utilisation des copies pour une bibliothèque peut être excusée au titre de l'usage loyal parce que certaines seront finalement utilisées pour former des LLM », et il a émis des doutes quant à la possibilité pour les autres procès liés à l'IA et portant sur le piratage d'échapper au paiement de dommages-intérêts.

En outre, le juge a souligné que les premières tentatives d'Anthropic pour obtenir l'autorisation de former ses employés sur les œuvres des auteurs ont échoué, car des messages internes ont révélé que l'entreprise avait conclu que le vol de livres était considéré comme la voie la plus rentable vers l'innovation « afin d'éviter les « tracas juridiques/pratiques/commerciaux », comme l'a déclaré Dario Amodei, cofondateur et PDG de l'entreprise.
« Anthropic a tort de supposer que tant que vous créez un produit final passionnant, toutes les étapes en coulisses, invisibles au public, sont excusables. « Ici, le piratage était le but : construire une bibliothèque que l'on aurait pu payer, comme Anthropic l'a fait par la suite, mais sans la payer », a écrit le juge.
La décision trace désormais un cadre pour l'entraînement de l'IA
Les auteurs pourraient intenter de nouvelles poursuites s'ils trouvaient des preuves de contrefaçon dans les productions de Claude. « Les auteurs concèdent que la formation des LLM n'a pas donné lieu à la fourniture au public de copies exactes ni même de contrefaçons de leurs œuvres. Si tel n'était pas le cas, l'affaire serait différente. Les auteurs restent libres d'intenter une action en justice à l'avenir si de tels faits venaient à se produire », a écrit le juge.
Il s'agit d'une décision mitigée sur l'usage loyal, qui constitue une perte tant pour les titulaires de droits d'auteur que pour Anthropic, mais qui pourrait être une victoire pour les plateformes d'IA en général. Si elle est confirmée, cette décision signifierait que les entreprises d'IA utilisant du matériel protégé par le droit d'auteur pour former leurs modèles pourraient être autorisées à le faire à l'avenir. La seule exception à cette règle serait si le matériel a été piraté.
Il est encore trop tôt pour dire quel montant le juge William Alsup jugera approprié de proposer au jury à titre de dommages-intérêts, mais la quantité de matériel protégé par le droit d'auteur utilisé par Anthropic sous forme piratée était énorme, de sorte que les dommages-intérêts pourraient être très importants.
Conclusion
Les entreprises d'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur dans le cadre de l'entraînement de leurs modèles d'IA. OpenAI veut un accès illimité aux œuvres protégées par le droit d'auteur. Le fabricant du chatbot d'IA populaire ChatGPT affirme également que cette utilisation doit être placée sous le principe de l'utilisation équitable (fair use). OpenAI avertit que la course à l'IA prendrait immédiatement fin s'il en était autrement.
En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». OpenAI reconnaît donc ouvertement qu'il utilise des contenus protégés par le droit d'auteur pour créer ses modèles d'IA. L'entreprise n'a toutefois pas encore été condamnée.
Cependant, une équipe de chercheurs a relevé le défi et a démontré qu'il est possible de former des modèles d'IA puissants sans enfreindre la loi. La décision du juge fédéral William Alsup émet un gros avertissement pour les entreprises d'IA qui cherchent à contourner les droits d’auteur.
Selon le juge William Alsup, les entreprises d'IA n'ont pas besoin de l'autorisation des auteurs pour entraîner leurs grands modèles de langage sur des livres achetés légalement. Il s'agit d'un usage loyal. Ce jugement fournit un référentiel pragmatique pour l’industrie de l'IA : « s’assurer que les données utilisées proviennent de sources légales et légitimes avant l’entraînement. Tout recours à du contenu piraté expose à un risque juridique majeur ».
Source : la décision du juge de district William Alsup (PDF)
Et vous ?




Voir aussi



Vous avez lu gratuitement 64 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.