OpenAI a subi un revers majeur dans le cadre d'un litige en cours concernant les droits d'auteur. Un juge fédéral a ordonné à l'entreprise de divulguer ses communications internes relatives à la suppression d'énormes ensembles de données contenant des livres piratés. Cette décision expose OpenAI à des dommages-intérêts potentiels de plusieurs milliards de dollars et représente une victoire importante pour les auteurs et les éditeurs qui poursuivent l'entreprise en justice. OpenAI cherche désespérément à éviter d'expliquer pourquoi il a supprimé ces ensembles de données provenant de livres piratés. L'entreprise conteste la décision du juge et a fait appel.L'affaire porte sur deux ensembles de données appelés « Books1 » et « Books2 » qu'OpenAI aurait utilisés pour entraîner son chatbot IA ChatGPT. Ces ensembles de données contiendraient des livre provenant de Library Genesis (LibGen), une bibliothèque pirate offrant un accès gratuit à des œuvres protégées par le droit d'auteur. Selon les documents judiciaires OpenAI a supprimé les deux ensembles de données en 2022, avant le lancement de de ChatGPT.
OpenAI affirme que les bibliothèques ont été supprimées « en raison de leur non-utilisation ». Cependant, les auteurs soupçonnent qu'il y a plus que cela. Ils ont remarqué qu'OpenAI semblait faire volte-face en retirant son affirmation selon laquelle la « non-utilisation » était une raison pour les supprimer, puis en affirmant plus tard que toutes les raisons de la suppression, y compris la « non-utilisation », devaient être protégées par le secret professionnel.
Pour les plaignants, il semblait qu'OpenAI faisait rapidement marche arrière après que le tribunal a accédé à leur demande de consultation des messages internes d'OpenAI au sujet de la « non-utilisation ». Le revirement d'OpenAI n'a fait que renforcer la curiosité des auteurs quant à la manière dont OpenAI avait abordé la question de la « non-utilisation », et ils pourraient désormais découvrir toutes les raisons pour lesquelles OpenAI a supprimé les livres.
Le tribunal juge qu'OpenAI a renoncé au secret professionnel
Dans sa décision rendue le 26 novembre 2025, la juge fédérale Ona Wang du district sud de New York, affirme qu'OpenAI avait renoncé à ses revendications en matière de secret professionnel en divulguant de manière sélective les raisons de la suppression des ensembles de données. la juge a ordonné à OpenAI de remettre les documents révélant ses motivations pour supprimer les ensembles de données. L'équipe juridique interne d'OpenAI sera entendue.
Les enjeux sont considérables. Les communications internes d'OpenAI pourraient prouver une violation « délibérée » du droit d'auteur, passible d'une amende pouvant atteindre 150 000 dollars par œuvre. Cela pourrait représenter des milliards de dollars de dommages et intérêts, une facture salée pour OpenAI.
La décision accorde aux auteurs et aux éditeurs l'accès aux communications d'OpenAI concernant la suppression des jeux de données. L'équipe juridique d'OpenAI devra également répondre à des questions concernant les motivations qui l'ont poussée à supprimer ces données. OpenAI a fait appel de cette décision peu après son prononcé, mais une autre demande concernant les communications entre les avocats d'OpenAI et ses clients reste en suspens.
Des milliards en jeu alors que l'infraction délibérée menace
Les implications de la décision du juge Ona Wang vont bien au-delà des litiges habituels en matière de droit d'auteur. Si les communications divulguées révèlent qu'OpenAI a sciemment enfreint le droit d'auteur, la société pourrait être accusée d'infraction délibérée. En vertu de la loi sur le droit d'auteur, « une violation délibérée est passible de dommages-intérêts pouvant atteindre 150 000 dollars par œuvre, contre 750 dollars pour une violation standard ».
Avec des dizaines de millions de livres et d'articles potentiellement concernés, l'exposition financière pourrait atteindre des milliards de dollars. David Schultz, professeur à l'université Hamline, a souligné l'importance d'avoir accès aux communications des avocats. « Découvrir ce que les avocats ont dit ou ce que les clients ont dit aux avocats et vice-versa nous fournit probablement de nombreuses preuves concernant leur état d'esprit », affirme David Schultz.
Il a ajouté que « cette divulgation porterait un coup énorme à la défense d'OpenAI ». Le résultat des manœuvres juridiques désordonnées d'OpenAI : l'entreprise a effectivement ouvert la porte à des informations privilégiées lorsqu'elle a divulgué la raison derrière la suppression de l'ensemble de données.
Cette affaire suit un schéma similaire à celui du règlement conclu par la startup concurrente Anthropic avec des auteurs en août 2024. Anthropic a accepté de verser 1,5 milliard de dollars pour régler un recours collectif après que des auteurs l'ont accusée d'avoir entraîné son modèle de langage Claude sur des livres piratés provenant de la même source, Library Genesis. Anthropic a réfuté ces allégations, mais a finalement accepté un règlement à l'amiable.
Selon les documents judiciaires, Anthropic a invoqué une « pression excessive » pour éviter un procès qui aurait pu lui coûter jusqu'à 1 000 milliards de dollars de dommages et intérêts. Dans le recours actuel contre OpenAI, si le tribunal détermine que l'entreprise a détruit des preuves en prévision d'un litige, les juges pourraient, lors de futurs procès, demander aux jurys de considérer que ces preuves auraient été préjudiciables à la cause de la startup d'IA.
Le recours collectif implique de grands éditeurs et auteurs
Le procès contre OpenAI regroupe plusieurs affaires de violation du droit d'auteur déposées devant différents tribunaux fédéraux. L'Authors Guild, une organisation professionnelle regroupant des écrivains, a déposé la première plainte en septembre 2023, rejointe par 17 auteurs de renom, dont George R.R. Martin, John Grisham, Jonathan Franzen, Jodi Picoult et Elin Hilderbrand. Le groupe défend la liberté d'expression et la protection du droit d'auteur.
Le New York Times a déposé une plainte distincte en décembre 2023, accusant OpenAI d'utiliser ses articles de presse pour former des chatbots sans autorisation. OpenAI a demandé le rejet de la plainte. Mais en octobre 2024, le juge fédéral américain Sidney Stein, qui supervise les affaires regroupées, a statué que les auteurs pouvaient poursuivre leur action en justice, estimant que les résumés générés par ChatGPT enfreignaient leurs droits d'auteur.
Le juge Sidney Stein a estimé que les résumés d'œuvres telles que la série « Game of Thrones » de George Martin sont suffisamment similaires aux livres originaux pour constituer une violation du droit d'auteur. La bataille autour de la divulgation des communications internes d'OpenAI ne...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.