Le New York Times pourrait gagner son procès sur les droits d'auteur contre OpenAI

D'après une analyse de James Grimmelmann, professeur de droit, et Timothy Lee

Le 21 février 2024 à 22:40, par Stéphane le calme

94PARTAGES

Le New York Times pourrait gagner son procès sur les droits d'auteur contre OpenAI
d'après une analyse de James Grimmelmann, professeur de droit, et Timothy Lee

Le New York Times a intenté une action en justice contre OpenAI, la société à l’origine du générateur de texte GPT-4, qu’elle accuse d’avoir utilisé sans autorisation des extraits de ses articles pour entraîner son intelligence artificielle. Le journal affirme que cette pratique constitue une violation de ses droits d’auteur et qu’elle porte atteinte à son intégrité journalistique. OpenAI, de son côté, se défend en invoquant le principe du fair use, qui permet d’utiliser des œuvres protégées à des fins d’éducation, de recherche ou de critique, sans avoir besoin de l’accord des ayants droit. La société soutient que son objectif est de créer une intelligence artificielle bénéfique pour l’humanité et qu’elle ne cherche pas à concurrencer ou à nuire au New York Times.

L'auteur et architecte de systèmes Daniel Jeffries a fait une longue publication sur X/Twitter, comme un essai, dans laquelle il affirme que le Times « a une probabilité quasi nulle de gagner » son procès. Datant d'après la plainte du New York Times contre OpenAI, son message a déjà été retweeté 290 fois et a été consulté 886 000 fois.

« Essayer de faire en sorte que tout le monde prenne une licence pour les données de formation ne fonctionnera pas, car ce n'est pas l'objet du droit d'auteur », a écrit Jeffries. « La loi sur le droit d'auteur vise à empêcher les gens de produire des copies exactes ou presque exactes d'un contenu et de les publier à des fins commerciales. C'est tout. Quiconque vous dit le contraire ment ou ne comprend tout simplement pas comment fonctionne le droit d'auteur ».

If you want to understand why the Times case has a near zero probability of winning, then read this thread.

This fellow does a nice write up and he seems sincere in his belief that what he is saying about the suit is accurate and correct when in fact it's basically just a lot… https://t.co/j7deo7fTcA
— Daniel Jeffries (@Dan_Jeffries1) December 28, 2023

Mais cette façon de comprendre le problème n'a pas fait l'unanimité.

Deux auteurs se sont laissés aller à une analyse différente. L'un d'eux est un journaliste qui s'intéresse au droit d'auteur depuis près de 20 ans. L'autre est un professeur de droit qui a donné des dizaines de cours sur la propriété intellectuelle et le droit de l'internet : « Nous sommes à peu près sûrs de comprendre comment fonctionne le droit d'auteur. Et nous sommes ici pour avertir la communauté de l'IA qu'elle doit prendre ces poursuites au sérieux ».

Copie et usage loyal

En 2004, Google a lancé publiquement un projet audacieux visant à numériser des millions de livres pour les utiliser dans un moteur de recherche. Les auteurs et les éditeurs ont intenté un procès, arguant qu'il était illégal de copier sans autorisation un si grand nombre d'œuvres protégées par des droits d'auteur. Google a rétorqué que cela était autorisé par l'usage loyal.

Les tribunaux sont censés prendre en compte quatre facteurs dans les affaires d'usage loyal, mais deux de ces facteurs tendent à être les plus importants. Le premier est la nature de l'utilisation. Une utilisation est plus susceptible d'être équitable si elle est "transformative", c'est-à-dire si la nouvelle utilisation a un objectif et un caractère radicalement différents de l'original.

Google a fait valoir qu'un moteur de recherche de livres est hautement transformatif parce qu'il remplit une fonction très différente de celle d'un livre individuel. Les gens lisent des livres pour les apprécier et en tirer des enseignements. Mais un moteur de recherche ressemble davantage à un catalogue de cartes ; il aide les gens à trouver des livres.

L'autre facteur clé est l'impact de l'utilisation sur le marché de l'œuvre originale. Ici aussi, Google disposait d'un argument de poids puisqu'un moteur de recherche de livres aide les gens à trouver de nouveaux livres à acheter.

Google a soigneusement conçu son moteur de recherche pour maximiser ses chances de gagner sur ce point. Google Book Search n'affiche qu'un court "extrait" d'une page donnée dans un résultat de recherche, et l'entreprise a veillé à ce que les utilisateurs ne puissent pas reconstituer un livre entier en effectuant plusieurs recherches. Google a également exclu les dictionnaires, les livres de cuisine et d'autres ouvrages de référence des résultats de recherche, car les utilisateurs pourraient rechercher des mots individuels sur Google au lieu d'acheter le dictionnaire entier.

En 2015, le deuxième circuit a tranché en faveur de Google. Un thème important de l'avis de la Cour est que le moteur de recherche de Google fournissait aux utilisateurs des informations factuelles, non soumises au droit d'auteur, plutôt que de reproduire une grande partie de l'expression créative des livres eux-mêmes. Comme l'a expliqué le tribunal :

Un étudiant qui rédige un travail sur Franklin D. Roosevelt pourrait avoir besoin d'apprendre l'année où Roosevelt a été frappé par la polio. En tapant "Roosevelt polio" dans une recherche Google Books, l'étudiant serait dirigé (parmi de nombreux sites) vers un extrait de la page 31 de l'ouvrage de Richard Thayer Goldberg, The Making of Franklin D. Roosevelt (1981), indiquant que l'attaque de polio s'est produite en 1921. Le chercheur aurait ainsi satisfait son besoin de connaître le livre, sans avoir à l'acheter ou à l'acquérir auprès d'une bibliothèque. Mais ce que le chercheur a tiré de cet extrait est un fait historique. Le droit d'auteur de l'auteur Goldberg ne s'étend pas aux faits communiqués par son livre.

Le deuxième circuit a conclu que « la réalisation par Google d'une copie numérique pour fournir une fonction de recherche est une utilisation transformative, qui augmente la connaissance du public en rendant disponibles des informations sur les livres des plaignants sans fournir au public un substitut substantiel des livres ».

Les défenseurs d'OpenAI, de Stability AI et d'autres sociétés d'IA ont fait valoir qu'elles faisaient la même chose que Google : apprendre des informations sur les œuvres dans les données d'apprentissage, mais ne pas reproduire l'expression créative dans les œuvres elles-mêmes.

Mais contrairement au moteur de recherche de Google, les modèles d'IA générative produisent parfois des œuvres créatives qui entrent directement en concurrence avec les œuvres sur lesquelles ils ont été formés. Cela place ces défendeurs dans une position juridique plus faible que celle de Google il y a dix ans.

L'IA générative a un problème du « plombier italien »

Les auteurs indiquent avoir récemment visité le site Web de Stability AI et demandé à son modèle d'image Stable Diffusion de générer l'image d'un « plombier italien de jeu vidéo ». Tout comme leur essai avec GPT-4, la première image générée est celle d'un personnage ressemblant à Mario, avec un "M" sur sa casquette.

Il est clair que ces modèles n'ont pas seulement appris des faits abstraits sur les plombiers - par exemple, qu'ils portent une salopette et des clés à molette. Ils ont appris des faits sur un plombier italien fictif spécifique qui porte des gants blancs, une salopette bleue avec des boutons jaunes et un chapeau rouge avec un "M" sur le devant.

Il ne s'agit pas de faits sur le monde qui sont hors de portée du droit d'auteur. Au contraire, les choix créatifs qui définissent Mario sont probablement couverts par les droits d'auteur détenus par Nintendo.

En fait, certains ont commencé à noter que DALL-E reproduisait des œuvres protégées. Par exemple, cet internaute qui déclare : « Il devrait être clair désormais que même des invites très vagues conduisent systématiquement à des violations de droits d'auteur et/ou de marques déposées. Comment la responsabilité peut-elle être imputée à l’utilisateur alors que le modèle genAI s’efforce de commettre des infractions sans y être invité ? »

Adding a simple term like 'kissing' provides only questionable renditions of Mario and Sonic. Did the user ask for these copyrighted characters to engage in this way?
It seems the genAI model insists that this is what the users prompt intended. pic.twitter.com/uM3k7eACAH
— Blanketman (@Blanketman_01) December 29, 2023

Ou encore Justine Moore de A16Z qui déclare : « Nous gagnons définitivement la bataille du droit d’auteur, les gars. Ces frères italiens ne ressemblent en rien à Mario et Luigi ».

We’re definitely winning the copyright battle, guys.

These Italian brothers look nothing like Mario and Luigi. pic.twitter.com/qemYuGsXGm
— Justine Moore (@venturetwins) December 29, 2023

Reid Southern, concepteur et illustrateur de films, a déclaré avoir trouvé une « preuve irréfutable de la violation flagrante du droit d'auteur de Midjourney ».

I consider this a smoking gun for Midjourney's flagrant copyright infringement. A 6-word prompt can replicate a Dune still nearly 1:1 every time. These aren't variations, it's the same prompt run repeatedly.

Try it yourself. Merry Christmas Midjourney. pic.twitter.com/2wpeTwxS0Q
— Reid Southen (@Rahll) December 24, 2023

Dans son procès contre OpenAI, le New York Times a fourni 100 exemples de GPT-4 générant de longs extraits quasi verbatim d'articles du Times :

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge

De nombreux membres de la communauté de l'IA ont sous-estimé l'importance de ces exemples

Les partisans de l'utilisation équitable aiment diviser l'analyse en deux étapes, ce que l'on peut voir dans le billet de blog d'OpenAI sur le procès du New York Times. OpenAI affirme d'abord catégoriquement que « l'entraînement de modèles d'intelligence artificielle à l'aide de matériel Internet accessible au public constitue un usage loyal ». Puis, dans une section distincte, OpenAI affirme que « la régurgitation » est « un bogue rare que nous nous efforçons de réduire à zéro ».

Mais les tribunaux ont tendance à analyser une telle question de manière globale ; la légalité de la copie initiale dépend des détails de l'utilisation finale des données copiées.

Par exemple, lorsque le deuxième circuit a examiné la légalité de la numérisation de livres par Google, il a examiné de près le fonctionnement du moteur de recherche de livres de Google. La décision a noté que les utilisateurs ne voyaient jamais que de courts extraits et ne pouvaient jamais récupérer de plus longs passages d'un livre protégé par le droit d'auteur.

OpenAI considère les résultats régurgités comme un « rare bogue » - et c'est peut-être le cas. Mais Google a pu dire aux tribunaux que son moteur de recherche ne reproduit jamais plus qu'une petite fraction d'un livre protégé par le droit d'auteur sans autorisation, parce qu'il ne le peut pas.

Conclusion

Les développeurs d'IA générative disposent d'arguments solides pour répondre aux poursuites en matière de droit d'auteur. Ils peuvent mettre en avant la valeur que leurs systèmes d'IA apportent aux utilisateurs, les façons créatives dont l'IA générative s'appuie sur des œuvres existantes et les remixe, ainsi que leurs efforts continus pour réduire la mémorisation.

Mais tous ces bons arguments ont un point commun : ils prennent au sérieux les questions de droit d'auteur. Ces réponses reconnaissent que l'IA générative repose sur une base de données d'apprentissage, dont une grande partie est protégée par le droit d'auteur, et tentent ensuite de montrer que toutes ces copies sont justifiées plutôt que non pertinentes.

Sources : OpenAI, l'IA générative a un problème de plagiat visuel, Timothy Lee et James Grimmelmann

Et vous ?

Quelle est votre opinion sur l’utilisation des articles du New York Times par OpenAI pour entraîner son intelligence artificielle ?

Pensez-vous que le fair use soit un argument valable pour justifier cette pratique ?

Quels sont les risques et les bénéfices potentiels de l’intelligence artificielle pour le journalisme et la société en général ?

Quelles seraient les conséquences d’une victoire du New York Times ou d’OpenAI ?

Comment protéger les droits d’auteur des créateurs de contenu tout en favorisant l’innovation technologique ?

Vous avez lu gratuitement 32 454 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :