La plainte, qui exige un procès devant jury devant un tribunal de district de New York, affirme que les créateurs des chatbots ont refusé de reconnaître les protections du droit d'auteur accordées par la législation et la Constitution américaine. Elle affirme que les chatbots, y compris ceux intégrés aux produits Microsoft comme son moteur de recherche Bing, ont réutilisé le contenu du Times pour le concurrencer.
En août, nous avons appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d'IA pour détournement de leur contenu : le quotidien a déclaré être contre l'utilisation de son contenu sans son accord en mettant à jour ses conditions d'utilisation. Le Times a tenté de négocier avec OpenAI des accords concernant la possibilité pour l'entreprise d'IA d'obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Quelques mois après que l'entreprise a envisagé des poursuites en justice, elle a décidé de passer à l'acte en déposant une plainte.
Le Times cible diverses entreprises sous l'égide d'OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l'utilise à la fois pour alimenter son service Copilot et a contribué à fournir l'infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l'utilisation de matériel protégé par le droit d'auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.
Une concurrence déloyale
Comme indiqué dans le procès, le Times allègue qu’OpenAI et les grands modèles linguistiques (LLM) de Microsoft, qui alimentent ChatGPT et Copilot, « peuvent générer une sortie qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif ». Cela « mine et endommage » la relation du Times avec ses lecteurs, affirme le média, tout en le privant « d’abonnements, de licences, de publicité et de revenus d’affiliation ».
La plainte affirme également que ces modèles d’IA « menacent un journalisme de haute qualité » en nuisant à la capacité des médias à protéger et à monétiser le contenu. « Grâce au Bing Chat de Microsoft (récemment rebaptisé « Copilot ») et au ChatGPT d’OpenAI, les accusés cherchent à profiter gratuitement de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement », indique la plainte.
Pendant ce temps, la publication de modèles d’IA formés sur le contenu du Times s’est avérée « extrêmement lucrative » à la fois pour Microsoft et pour OpenAI, indique la plainte.
Cette dernière ne comprend pas de demande monétaire exacte. Mais le quotidien affirme que les accusés devraient être tenus responsables de « milliards de dollars de dommages-intérêts légaux et réels » liés à « la copie et l’utilisation illégales des œuvres d’une valeur unique du Times ». Il appelle également les entreprises à détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times.
La construction d'un « un modèle économique basé sur la violation massive du droit d’auteur »
La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.
« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.
Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.
La poursuite allègue qu'il est facile d'amener des systèmes alimentés par GPT à proposer du contenu qui est normalement protégé par le paywall du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.
ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. En entrant certaines des invites affichées dans la poursuite, il est désormais indiqué « Je recommande de consulter le site Web du New York Times ou d'autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d'auteur.
Mais toutes les lacunes n’ont pas été comblées. La combinaison affiche également les résultats de Bing Chat, rebaptisé depuis Copilot. Nous avons pu vérifier que demander le premier paragraphe d’un article spécifique du Times faisait en sorte que Copilot reproduisait le premier tiers de l’article.
La poursuite rejette les tentatives visant à justifier cela comme une forme d’utilisation équitable. « Publiquement, les accusés insistent sur le fait que leur conduite est protégée en tant « qu'usage loyal » parce que leur utilisation sans licence de contenu protégé par le droit d'auteur pour former des modèles GenAI sert un nouvel objectif « transformateur » », note la poursuite. « Mais il n'y a rien de "transformateur" dans le fait d'utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent du public ».
« Faire du bon journalisme est plus difficile que jamais »
La plainte souligne le passage d'OpenAI de sa création en 2015 en tant que « société d'intelligence artificielle à but non lucratif » à une entreprise à but lucratif de plusieurs milliards de dollars, « bâtie en grande partie sur l'exploitation sans licence d'œuvres protégées par le droit d'auteur appartenant au Times et d'autres ».
La plainte du Times affirme également que « faire du bon journalisme est plus difficile que jamais », avec l'effondrement des modèles commerciaux dans l'industrie au cours des 20 dernières années, obligeant de nombreux journaux à travers les États-Unis à fermer :
Si le Times et ses pairs ne peuvent pas contrôler l’utilisation de leur contenu, leur capacité à monétiser ce contenu sera compromise. Avec moins de revenus, les agences de presse auront moins de journalistes capables de consacrer du temps et des ressources à des reportages importants et approfondis, ce qui crée le risque que ces reportages ne soient pas racontés. Moins de journalisme sera produit et le coût pour la société sera énorme
Les hallucinations communes à l'IA ont également été critiquées dans le cadre de la poursuite, car elles pourraient potentiellement nuire à la valeur de la réputation du Times et éventuellement nuire à la santé humaine en tant qu'effet secondaire. « Un modèle GPT a complètement inventé que "le New York Times a publié un article le 10 janvier 2020, intitulé 'Une étude révèle un lien possible entre le jus d'orange et le lymphome non hodgkinien' », affirme la plainte. « Le Times n'a jamais publié un tel article ».
De même, en posant des questions sur un article du Times sur les aliments sains pour le cœur, Copilot aurait déclaré qu'il contenait une liste d'exemples (ce qui n'était pas le cas). Lorsqu'il lui a été demandé la liste, 80% des aliments n'étaient même pas mentionnés dans l'article original. Dans un autre cas, des recommandations ont été attribuées à Wirecutter alors que les produits n'avaient même pas été examinés par son personnel.
Comme pour le matériel du Times, il est allégué qu'il est possible d'amener Copilot à proposer de gros morceaux d'articles sur Wirecutter (The Wirecutter appartient au New York Times). Mais la poursuite note que ces extraits d'articles sont dépourvus de liens d'affiliation, privant Wirecutter de sa principale source de revenus.
La réaction d'OpenAI
Dans sa plainte, le Times a déclaré avoir contacté Microsoft et OpenAI en avril pour faire part de ses préoccupations concernant l'utilisation de sa propriété intellectuelle et explorer « une résolution à l'amiable », impliquant éventuellement un accord commercial et des « garde-fous technologiques » autour des produits de l'IA générative. Mais il a ajouté que les négociations n'avaient pas abouti à une résolution.
Une porte-parole d'OpenAI, Lindsey Held, a déclaré dans un communiqué que la société avait « avancé de manière constructive » dans ses conversations avec le Times et qu'elle était « surprise et déçue » par le procès.
« Nous respectons les droits des créateurs et des propriétaires de contenu et nous nous engageons à travailler avec eux pour garantir qu'ils bénéficient de l'IA. la technologie et les nouveaux modèles de revenus », a déclaré Held. « Nos conversations en cours avec le New York Times ont été productives et progressent de manière constructive, nous sommes donc surpris et déçus de cette évolution. Nous espérons trouver une manière mutuellement avantageuse de travailler ensemble, comme nous le faisons avec de nombreux autres éditeurs. »
Conclusion
Le New York Times est l’un des nombreux médias qui ont bloqué le robot d’exploration d’OpenAI ces derniers mois, empêchant la société d’IA de continuer à extraire le contenu de son site Web et à utiliser les données pour former des modèles d’IA. La BBC, CNN et Reuters ont également décidé de bloquer le robot d’exploration Web d’OpenAI. Cependant, d’autres publications adoptent l’IA – ou, du moins, les paiements qui l’accompagnent. Axel Springer, propriétaire de Politico et Business Insider, a conclu un accord avec OpenAI plus tôt ce mois-ci qui permet à ChatGPT d'extraire des informations directement des deux sources, tandis que l'Associated Press permet à OpenAI de former ses modèles sur ses actualités pour les deux prochaines années.
Sources : plainte du New York Times, communiqué d'Axel Springer
Et vous ?
Que pensez-vous de la position du New York Times par rapport à OpenAI ?
Croyez-vous que l’utilisation du contenu du New York Times par OpenAI relève de l’utilisation équitable ou de la contrefaçon ?
Quels sont les avantages et les inconvénients de l’intelligence artificielle générative pour le journalisme ?
Comment protéger le droit d’auteur à l’ère de l’intelligence artificielle ?
Quel rôle devraient jouer les régulateurs et les législateurs dans ce domaine ?