L'auteur et architecte de systèmes Daniel Jeffries a fait une longue publication sur X/Twitter, comme un essai, dans laquelle il affirme que le Times « a une probabilité quasi nulle de gagner » son procès. Datant d'après la plainte du New York Times contre OpenAI, son message a déjà été retweeté 290 fois et a été consulté 886 000 fois.
« Essayer de faire en sorte que tout le monde prenne une licence pour les données de formation ne fonctionnera pas, car ce n'est pas l'objet du droit d'auteur », a écrit Jeffries. « La loi sur le droit d'auteur vise à empêcher les gens de produire des copies exactes ou presque exactes d'un contenu et de les publier à des fins commerciales. C'est tout. Quiconque vous dit le contraire ment ou ne comprend tout simplement pas comment fonctionne le droit d'auteur ».
Mais cette façon de comprendre le problème n'a pas fait l'unanimité.If you want to understand why the Times case has a near zero probability of winning, then read this thread.
— Daniel Jeffries (@Dan_Jeffries1) December 28, 2023
This fellow does a nice write up and he seems sincere in his belief that what he is saying about the suit is accurate and correct when in fact it's basically just a lot… https://t.co/j7deo7fTcA
Deux auteurs se sont laissés aller à une analyse différente. L'un d'eux est un journaliste qui s'intéresse au droit d'auteur depuis près de 20 ans. L'autre est un professeur de droit qui a donné des dizaines de cours sur la propriété intellectuelle et le droit de l'internet : « Nous sommes à peu près sûrs de comprendre comment fonctionne le droit d'auteur. Et nous sommes ici pour avertir la communauté de l'IA qu'elle doit prendre ces poursuites au sérieux ».
Copie et usage loyal
En 2004, Google a lancé publiquement un projet audacieux visant à numériser des millions de livres pour les utiliser dans un moteur de recherche. Les auteurs et les éditeurs ont intenté un procès, arguant qu'il était illégal de copier sans autorisation un si grand nombre d'œuvres protégées par des droits d'auteur. Google a rétorqué que cela était autorisé par l'usage loyal.
Les tribunaux sont censés prendre en compte quatre facteurs dans les affaires d'usage loyal, mais deux de ces facteurs tendent à être les plus importants. Le premier est la nature de l'utilisation. Une utilisation est plus susceptible d'être équitable si elle est "transformative", c'est-à-dire si la nouvelle utilisation a un objectif et un caractère radicalement différents de l'original.
Google a fait valoir qu'un moteur de recherche de livres est hautement transformatif parce qu'il remplit une fonction très différente de celle d'un livre individuel. Les gens lisent des livres pour les apprécier et en tirer des enseignements. Mais un moteur de recherche ressemble davantage à un catalogue de cartes ; il aide les gens à trouver des livres.
L'autre facteur clé est l'impact de l'utilisation sur le marché de l'œuvre originale. Ici aussi, Google disposait d'un argument de poids puisqu'un moteur de recherche de livres aide les gens à trouver de nouveaux livres à acheter.
Google a soigneusement conçu son moteur de recherche pour maximiser ses chances de gagner sur ce point. Google Book Search n'affiche qu'un court "extrait" d'une page donnée dans un résultat de recherche, et l'entreprise a veillé à ce que les utilisateurs ne puissent pas reconstituer un livre entier en effectuant plusieurs recherches. Google a également exclu les dictionnaires, les livres de cuisine et d'autres ouvrages de référence des résultats de recherche, car les utilisateurs pourraient rechercher des mots individuels sur Google au lieu d'acheter le dictionnaire entier.
En 2015, le deuxième circuit a tranché en faveur de Google. Un thème important de l'avis de la Cour est que le moteur de recherche de Google fournissait aux utilisateurs des informations factuelles, non soumises au droit d'auteur, plutôt que de reproduire une grande partie de l'expression créative des livres eux-mêmes. Comme l'a expliqué le tribunal :
Les défenseurs d'OpenAI, de Stability AI et d'autres sociétés d'IA ont fait valoir qu'elles faisaient la même chose que Google : apprendre des informations sur les œuvres dans les données d'apprentissage, mais ne pas reproduire l'expression créative dans les œuvres elles-mêmes.
Mais contrairement au moteur de recherche de Google, les modèles d'IA générative produisent parfois des œuvres créatives qui entrent directement en concurrence avec les œuvres sur lesquelles ils ont été formés. Cela place ces défendeurs dans une position juridique plus faible que celle de Google il y a dix ans.
L'IA générative a un problème du « plombier italien »
Les auteurs indiquent avoir récemment visité le site Web de Stability AI et demandé à son modèle d'image Stable Diffusion de générer l'image d'un « plombier italien de jeu vidéo ». Tout comme leur essai avec GPT-4, la première image générée est celle d'un personnage ressemblant à Mario, avec un "M" sur sa casquette.
Il ne s'agit pas de faits sur le monde qui sont hors de portée du droit d'auteur. Au contraire, les choix créatifs qui définissent Mario sont probablement couverts par les droits d'auteur détenus par Nintendo.
Ou encore Justine Moore de A16Z qui déclare : « Nous gagnons définitivement la bataille du droit d’auteur, les gars. Ces frères italiens ne ressemblent en rien à Mario et Luigi ».Adding a simple term like 'kissing' provides only questionable renditions of Mario and Sonic. Did the user ask for these copyrighted characters to engage in this way?
— Blanketman (@Blanketman_01) December 29, 2023
It seems the genAI model insists that this is what the users prompt intended. pic.twitter.com/uM3k7eACAH
Reid Southern, concepteur et illustrateur de films, a déclaré avoir trouvé une « preuve irréfutable de la violation flagrante du droit d'auteur de Midjourney ».We’re definitely winning the copyright battle, guys.
— Justine Moore (@venturetwins) December 29, 2023
These Italian brothers look nothing like Mario and Luigi. pic.twitter.com/qemYuGsXGm
Dans son procès contre OpenAI, le New York Times a fourni 100 exemples de GPT-4 générant de longs extraits quasi verbatim d'articles du Times :I consider this a smoking gun for Midjourney's flagrant copyright infringement. A 6-word prompt can replicate a Dune still nearly 1:1 every time. These aren't variations, it's the same prompt run repeatedly.
— Reid Southen (@Rahll) December 24, 2023
Try it yourself. Merry Christmas Midjourney. pic.twitter.com/2wpeTwxS0Q
Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge
De nombreux membres de la communauté de l'IA ont sous-estimé l'importance de ces exemples
Les partisans de l'utilisation équitable aiment diviser l'analyse en deux étapes, ce que l'on peut voir dans le billet de blog d'OpenAI sur le procès du New York Times. OpenAI affirme d'abord catégoriquement que « l'entraînement de modèles d'intelligence artificielle à l'aide de matériel Internet accessible au public constitue un usage loyal ». Puis, dans une section distincte, OpenAI affirme que « la régurgitation » est « un bogue rare que nous nous efforçons de réduire à zéro ».
Mais les tribunaux ont tendance à analyser une telle question de manière globale ; la légalité de la copie initiale dépend des détails de l'utilisation finale des données copiées.
Par exemple, lorsque le deuxième circuit a examiné la légalité de la numérisation de livres par Google, il a examiné de près le fonctionnement du moteur de recherche de livres de Google. La décision a noté que les utilisateurs ne voyaient jamais que de courts extraits et ne pouvaient jamais récupérer de plus longs passages d'un livre protégé par le droit d'auteur.
OpenAI considère les résultats régurgités comme un « rare bogue » - et c'est peut-être le cas. Mais Google a pu dire aux tribunaux que son moteur de recherche ne reproduit jamais plus qu'une petite fraction d'un livre protégé par le droit d'auteur sans autorisation, parce qu'il ne le peut pas.
Conclusion
Les développeurs d'IA générative disposent d'arguments solides pour répondre aux poursuites en matière de droit d'auteur. Ils peuvent mettre en avant la valeur que leurs systèmes d'IA apportent aux utilisateurs, les façons créatives dont l'IA générative s'appuie sur des œuvres existantes et les remixe, ainsi que leurs efforts continus pour réduire la mémorisation.
Mais tous ces bons arguments ont un point commun : ils prennent au sérieux les questions de droit d'auteur. Ces réponses reconnaissent que l'IA générative repose sur une base de données d'apprentissage, dont une grande partie est protégée par le droit d'auteur, et tentent ensuite de montrer que toutes ces copies sont justifiées plutôt que non pertinentes.
Sources : OpenAI, l'IA générative a un problème de plagiat visuel, Timothy Lee et James Grimmelmann
Et vous ?
Quelle est votre opinion sur l’utilisation des articles du New York Times par OpenAI pour entraîner son intelligence artificielle ?
Pensez-vous que le fair use soit un argument valable pour justifier cette pratique ?
Quels sont les risques et les bénéfices potentiels de l’intelligence artificielle pour le journalisme et la société en général ?
Quelles seraient les conséquences d’une victoire du New York Times ou d’OpenAI ?
Comment protéger les droits d’auteur des créateurs de contenu tout en favorisant l’innovation technologique ?