OpenAI a accusé le New York Times d'avoir payé quelqu'un pour "pirater" ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.
En décembre, le NYT a intenté un procès à OpenAI et à son bailleur de fonds Microsoft, les accusant de s'être emparés sans autorisation du site web du journal pour entraîner de grands modèles de langage. L'action en justice comprenait ce qui était censé être la preuve que ChatGPT reproduisait des passages entiers d'articles du New York Times à la suite d'invites envoyées par les utilisateurs.
La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.
L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.
Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.
Mais OpenAI n'est pas d'accord et demande au tribunal de rejeter l'affaire
OpenAI a toutefois riposté cette semaine à ces allégations en demandant au tribunal de rejeter l'affaire. La startup a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.
OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.
Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».
Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.
OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.
Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :
Envoyé par OpenAI
Dans sa plainte, OpenAI a décrit le Times comme ayant rendu compte avec enthousiasme de ses développements en matière de chatbot pendant des années, sans soulever la moindre inquiétude quant à la violation des droits d'auteur. OpenAI affirme avoir révélé que les articles du Times étaient utilisés pour entraîner ses modèles d'IA en 2020, mais que le Times ne s'en est préoccupé qu'après l'explosion de la popularité de ChatGPT après ses débuts en 2022.
Selon OpenAI, « ce n'est qu'après cette adoption rapide, ainsi que des rapports sur la valeur débloquée par ces nouvelles technologies », que le Times a prétendu qu'OpenAI avait « violé ses droits d'auteur » et a pris contact avec lui pour demander des « conditions commerciales ». Après des mois de discussions, le Times a intenté une action en justice deux jours après Noël, réclamant des « milliards de dollars ».
Des arguments sans fondements, pour les avocats du New York Times
Ian Crosby, associé de Susman Godfrey et avocat principal du New York Times, a déclaré que « ce qu'OpenAI qualifie bizarrement à tort de "piratage" consiste simplement à utiliser les produits d'OpenAI pour chercher des preuves qu'ils ont volé et reproduit les œuvres protégées par le droit d'auteur du Times. Et c'est exactement ce que nous avons trouvé. En fait, l'ampleur de la copie d'OpenAI est bien plus importante que la centaine d'exemples présentés dans la plainte ».
Crosby a déclaré que le dépôt d'OpenAI, notamment, « ne conteste pas - ni ne peut contester - le fait qu'ils ont copié des millions d'œuvres du Times pour construire et alimenter leurs produits commerciaux sans notre permission ». « Construire de nouveaux produits n'est pas une excuse pour violer la loi sur le droit d'auteur, et c'est exactement ce qu'OpenAI a fait à une échelle sans précédent », a déclaré Crosby.
OpenAI a fait valoir que le tribunal devrait « rejeter les plaintes relatives au droit d'auteur direct, à la contrefaçon contributive, aux violations du Digital Millennium Copyright Act et à l'appropriation illicite, qu'elle qualifie toutes d'"infirmes d'un point de vue juridique ». Certaines échouent parce qu'elles sont prescrites - la demande de dommages-intérêts sur les données de formation pour les anciens modèles d'OpenAI - a affirmé OpenAI. D'autres échouent parce qu'elles ne comprennent pas l'utilisation équitable ou parce que les lois fédérales l'emportent sur elles.
Si la requête d'OpenAI est acceptée, il ne restera probablement que les plaintes pour violation du droit d'auteur par personne interposée et pour dilution de marque.
Mais si le Times gagne - et c'est possible - OpenAI pourrait être obligée d'effacer ChatGPT et de repartir à zéro.
« OpenAI, qui a fait preuve de discrétion et a délibérément caché le fonctionnement de ses produits, affirme aujourd'hui qu'il est trop tard pour déposer une plainte pour infraction ou pour lui demander des comptes. Nous ne sommes pas d'accord », a déclaré Crosby. « Il est intéressant de noter qu'OpenAI ne conteste pas le fait qu'elle a copié les œuvres de Times sans autorisation dans le délai de prescription pour former ses modèles les plus récents et les plus actuels ».
Conclusion
Le Times fait partie des propriétaires de droits d’auteur qui ont intenté des poursuites contre des entreprises technologiques pour l’utilisation présumée abusive de leurs œuvres dans l’entraînement de l’intelligence artificielle. Les entreprises technologiques ont affirmé que leurs systèmes d’IA font un usage équitable du matériel protégé par le droit d’auteur et que les poursuites menacent la croissance de cette industrie potentiellement multitrillionnaire. Les tribunaux n’ont pas encore tranché la question clé de savoir si l’entraînement de l’IA constitue un usage équitable en vertu du droit d’auteur. Jusqu’à présent, les juges ont rejeté certaines accusations de violation du droit d’auteur concernant les résultats des systèmes d’IA génératifs, faute de preuves que le contenu créé par l’IA ressemble à des œuvres protégées par le droit d’auteur.
Source : OpenAI
Et vous ?
Pensez-vous que l’utilisation de modèles d’IA comme ChatGPT pour générer du contenu à partir d’articles protégés par le droit d’auteur constitue une violation des droits d’auteur ?
Devrions-nous revoir les lois sur les droits d’auteur pour tenir compte de l’entraînement de l’IA ?
Quelle est votre opinion sur la notion d’« usage équitable » en matière de droits d’auteur ? Devrait-elle s’appliquer différemment aux systèmes d’IA ?
Comment pouvons-nous équilibrer les droits des créateurs avec l’innovation technologique ?
Les entreprises technologiques devraient-elles être plus responsables de l’utilisation de leurs modèles d’IA par des tiers ?
Comment pouvons-nous encourager une utilisation éthique et responsable de l’IA ?
Devrions-nous exiger davantage de transparence de la part des entreprises qui développent des modèles d’IA ?
Comment pouvons-nous garantir que les utilisateurs comprennent les limites et les implications de ces technologies ?