IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le New York Times pourrait gagner son procès sur les droits d'auteur contre OpenAI
D'après une analyse de James Grimmelmann, professeur de droit, et Timothy Lee

Le , par Stéphane le calme

33PARTAGES

4  0 
Le New York Times pourrait gagner son procès sur les droits d'auteur contre OpenAI
d'après une analyse de James Grimmelmann, professeur de droit, et Timothy Lee

Le New York Times a intenté une action en justice contre OpenAI, la société à l’origine du générateur de texte GPT-4, qu’elle accuse d’avoir utilisé sans autorisation des extraits de ses articles pour entraîner son intelligence artificielle. Le journal affirme que cette pratique constitue une violation de ses droits d’auteur et qu’elle porte atteinte à son intégrité journalistique. OpenAI, de son côté, se défend en invoquant le principe du fair use, qui permet d’utiliser des œuvres protégées à des fins d’éducation, de recherche ou de critique, sans avoir besoin de l’accord des ayants droit. La société soutient que son objectif est de créer une intelligence artificielle bénéfique pour l’humanité et qu’elle ne cherche pas à concurrencer ou à nuire au New York Times.

L'auteur et architecte de systèmes Daniel Jeffries a fait une longue publication sur X/Twitter, comme un essai, dans laquelle il affirme que le Times « a une probabilité quasi nulle de gagner » son procès. Datant d'après la plainte du New York Times contre OpenAI, son message a déjà été retweeté 290 fois et a été consulté 886 000 fois.

« Essayer de faire en sorte que tout le monde prenne une licence pour les données de formation ne fonctionnera pas, car ce n'est pas l'objet du droit d'auteur », a écrit Jeffries. « La loi sur le droit d'auteur vise à empêcher les gens de produire des copies exactes ou presque exactes d'un contenu et de les publier à des fins commerciales. C'est tout. Quiconque vous dit le contraire ment ou ne comprend tout simplement pas comment fonctionne le droit d'auteur ».

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">If you want to understand why the Times case has a near zero probability of winning, then read this thread. <br><br>This fellow does a nice write up and he seems sincere in his belief that what he is saying about the suit is accurate and correct when in fact it's basically just a lot… <a href="https://t.co/j7deo7fTcA">https://t.co/j7deo7fTcA</a></p>— Daniel Jeffries (@Dan_Jeffries1) <a href="https://twitter.com/Dan_Jeffries1/status/1740303405254377808?ref_src=twsrc%5Etfw">December 28, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Mais cette façon de comprendre le problème n'a pas fait l'unanimité.

Deux auteurs se sont laissés aller à une analyse différente. L'un d'eux est un journaliste qui s'intéresse au droit d'auteur depuis près de 20 ans. L'autre est un professeur de droit qui a donné des dizaines de cours sur la propriété intellectuelle et le droit de l'internet : « Nous sommes à peu près sûrs de comprendre comment fonctionne le droit d'auteur. Et nous sommes ici pour avertir la communauté de l'IA qu'elle doit prendre ces poursuites au sérieux ».

Copie et usage loyal

En 2004, Google a lancé publiquement un projet audacieux visant à numériser des millions de livres pour les utiliser dans un moteur de recherche. Les auteurs et les éditeurs ont intenté un procès, arguant qu'il était illégal de copier sans autorisation un si grand nombre d'œuvres protégées par des droits d'auteur. Google a rétorqué que cela était autorisé par l'usage loyal.

Les tribunaux sont censés prendre en compte quatre facteurs dans les affaires d'usage loyal, mais deux de ces facteurs tendent à être les plus importants. Le premier est la nature de l'utilisation. Une utilisation est plus susceptible d'être équitable si elle est "transformative", c'est-à-dire si la nouvelle utilisation a un objectif et un caractère radicalement différents de l'original.

Google a fait valoir qu'un moteur de recherche de livres est hautement transformatif parce qu'il remplit une fonction très différente de celle d'un livre individuel. Les gens lisent des livres pour les apprécier et en tirer des enseignements. Mais un moteur de recherche ressemble davantage à un catalogue de cartes ; il aide les gens à trouver des livres.

L'autre facteur clé est l'impact de l'utilisation sur le marché de l'œuvre originale. Ici aussi, Google disposait d'un argument de poids puisqu'un moteur de recherche de livres aide les gens à trouver de nouveaux livres à acheter.

Google a soigneusement conçu son moteur de recherche pour maximiser ses chances de gagner sur ce point. Google Book Search n'affiche qu'un court "extrait" d'une page donnée dans un résultat de recherche, et l'entreprise a veillé à ce que les utilisateurs ne puissent pas reconstituer un livre entier en effectuant plusieurs recherches. Google a également exclu les dictionnaires, les livres de cuisine et d'autres ouvrages de référence des résultats de recherche, car les utilisateurs pourraient rechercher des mots individuels sur Google au lieu d'acheter le dictionnaire entier.

En 2015, le deuxième circuit a tranché en faveur de Google. Un thème important de l'avis de la Cour est que le moteur de recherche de Google fournissait aux utilisateurs des informations factuelles, non soumises au droit d'auteur, plutôt que de reproduire une grande partie de l'expression créative des livres eux-mêmes. Comme l'a expliqué le tribunal :

Un étudiant qui rédige un travail sur Franklin D. Roosevelt pourrait avoir besoin d'apprendre l'année où Roosevelt a été frappé par la polio. En tapant "Roosevelt polio" dans une recherche Google Books, l'étudiant serait dirigé (parmi de nombreux sites) vers un extrait de la page 31 de l'ouvrage de Richard Thayer Goldberg, The Making of Franklin D. Roosevelt (1981), indiquant que l'attaque de polio s'est produite en 1921. Le chercheur aurait ainsi satisfait son besoin de connaître le livre, sans avoir à l'acheter ou à l'acquérir auprès d'une bibliothèque. Mais ce que le chercheur a tiré de cet extrait est un fait historique. Le droit d'auteur de l'auteur Goldberg ne s'étend pas aux faits communiqués par son livre.
Le deuxième circuit a conclu que « la réalisation par Google d'une copie numérique pour fournir une fonction de recherche est une utilisation transformative, qui augmente la connaissance du public en rendant disponibles des informations sur les livres des plaignants sans fournir au public un substitut substantiel des livres ».

Les défenseurs d'OpenAI, de Stability AI et d'autres sociétés d'IA ont fait valoir qu'elles faisaient la même chose que Google : apprendre des informations sur les œuvres dans les données d'apprentissage, mais ne pas reproduire l'expression créative dans les œuvres elles-mêmes.

Mais contrairement au moteur de recherche de Google, les modèles d'IA générative produisent parfois des œuvres créatives qui entrent directement en concurrence avec les œuvres sur lesquelles ils ont été formés. Cela place ces défendeurs dans une position juridique plus faible que celle de Google il y a dix ans.


L'IA générative a un problème du « plombier italien »

Les auteurs indiquent avoir récemment visité le site Web de Stability AI et demandé à son modèle d'image Stable Diffusion de générer l'image d'un « plombier italien de jeu vidéo ». Tout comme leur essai avec GPT-4, la première image générée est celle d'un personnage ressemblant à Mario, avec un "M" sur sa casquette.

Il est clair que ces modèles n'ont pas seulement appris des faits abstraits sur les plombiers - par exemple, qu'ils portent une salopette et des clés à molette. Ils ont appris des faits sur un plombier italien fictif spécifique qui porte des gants blancs, une salopette bleue avec des boutons jaunes et un chapeau rouge avec un "M" sur le devant.

Il ne s'agit pas de faits sur le monde qui sont hors de portée du droit d'auteur. Au contraire, les choix créatifs qui définissent Mario sont probablement couverts par les droits d'auteur détenus par Nintendo.
En fait, certains ont commencé à noter que DALL-E reproduisait des œuvres protégées. Par exemple, cet internaute qui déclare : « Il devrait être clair désormais que même des invites très vagues conduisent systématiquement à des violations de droits d'auteur et/ou de marques déposées. Comment la responsabilité peut-elle être imputée à l’utilisateur alors que le modèle genAI s’efforce de commettre des infractions sans y être invité ? »

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Adding a simple term like 'kissing' provides only questionable renditions of Mario and Sonic. Did the user ask for these copyrighted characters to engage in this way?<br>It seems the genAI model insists that this is what the users prompt intended. <a href="https://t.co/uM3k7eACAH">pic.twitter.com/uM3k7eACAH</a></p>— Blanketman (@Blanketman_01) <a href="https://twitter.com/Blanketman_01/status/1740799997304799476?ref_src=twsrc%5Etfw">December 29, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Ou encore Justine Moore de A16Z qui déclare : « Nous gagnons définitivement la bataille du droit d’auteur, les gars. Ces frères italiens ne ressemblent en rien à Mario et Luigi ».

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">We’re definitely winning the copyright battle, guys. <br><br>These Italian brothers look nothing like Mario and Luigi. <a href="https://t.co/qemYuGsXGm">pic.twitter.com/qemYuGsXGm</a></p>— Justine Moore (@venturetwins) <a href="https://twitter.com/venturetwins/status/1740776522913607796?ref_src=twsrc%5Etfw">December 29, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Reid Southern, concepteur et illustrateur de films, a déclaré avoir trouvé une « preuve irréfutable de la violation flagrante du droit d'auteur de Midjourney ».

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">I consider this a smoking gun for Midjourney's flagrant copyright infringement. A 6-word prompt can replicate a Dune still nearly 1:1 every time. These aren't variations, it's the same prompt run repeatedly. <br><br>Try it yourself. Merry Christmas Midjourney. <a href="https://t.co/2wpeTwxS0Q">pic.twitter.com/2wpeTwxS0Q</a></p>— Reid Southen (@Rahll) <a href="https://twitter.com/Rahll/status/1739003201221718466?ref_src=twsrc%5Etfw">December 24, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Dans son procès contre OpenAI, le New York Times a fourni 100 exemples de GPT-4 générant de longs extraits quasi verbatim d'articles du Times :


Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge

De nombreux membres de la communauté de l'IA ont sous-estimé l'importance de ces exemples

Les partisans de l'utilisation équitable aiment diviser l'analyse en deux étapes, ce que l'on peut voir dans le billet de blog d'OpenAI sur le procès du New York Times. OpenAI affirme d'abord catégoriquement que « l'entraînement de modèles d'intelligence artificielle à l'aide de matériel Internet accessible au public constitue un usage loyal ». Puis, dans une section distincte, OpenAI affirme que « la régurgitation » est « un bogue rare que nous nous efforçons de réduire à zéro ».

Mais les tribunaux ont tendance à analyser une telle question de manière globale ; la légalité de la copie initiale dépend des détails de l'utilisation finale des données copiées.

Par exemple, lorsque le deuxième circuit a examiné la légalité de la numérisation de livres par Google, il a examiné de près le fonctionnement du moteur de recherche de livres de Google. La décision a noté que les utilisateurs ne voyaient jamais que de courts extraits et ne pouvaient jamais récupérer de plus longs passages d'un livre protégé par le droit d'auteur.

OpenAI considère les résultats régurgités comme un « rare bogue » - et c'est peut-être le cas. Mais Google a pu dire aux tribunaux que son moteur de recherche ne reproduit jamais plus qu'une petite fraction d'un livre protégé par le droit d'auteur sans autorisation, parce qu'il ne le peut pas.

Conclusion

Les développeurs d'IA générative disposent d'arguments solides pour répondre aux poursuites en matière de droit d'auteur. Ils peuvent mettre en avant la valeur que leurs systèmes d'IA apportent aux utilisateurs, les façons créatives dont l'IA générative s'appuie sur des œuvres existantes et les remixe, ainsi que leurs efforts continus pour réduire la mémorisation.

Mais tous ces bons arguments ont un point commun : ils prennent au sérieux les questions de droit d'auteur. Ces réponses reconnaissent que l'IA générative repose sur une base de données d'apprentissage, dont une grande partie est protégée par le droit d'auteur, et tentent ensuite de montrer que toutes ces copies sont justifiées plutôt que non pertinentes.

Sources : OpenAI, l'IA générative a un problème de plagiat visuel, Timothy Lee et James Grimmelmann

Et vous ?

Quelle est votre opinion sur l’utilisation des articles du New York Times par OpenAI pour entraîner son intelligence artificielle ?
Pensez-vous que le fair use soit un argument valable pour justifier cette pratique ?
Quels sont les risques et les bénéfices potentiels de l’intelligence artificielle pour le journalisme et la société en général ?
Quelles seraient les conséquences d’une victoire du New York Times ou d’OpenAI ?
Comment protéger les droits d’auteur des créateurs de contenu tout en favorisant l’innovation technologique ?
Vous avez lu gratuitement 145 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 01/05/2025 à 12:32
Citation Envoyé par Stéphane le calme Voir le message
Le PDG de Microsoft affirme que jusqu'à 30 % du code de l'entreprise a été généré par son IA Copilot, innovation ou dépendance algorithmique ?
L’IA s’impose dans l’environnement quotidien des développeurs Microsoft
Quand on voit la teneur des correctifs des derniers patchs de sa société, il devrait plutôt faire profil bas...

Citation Envoyé par Stéphane le calme Voir le message
Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?
Non.

Citation Envoyé par Stéphane le calme Voir le message
Comment intégrer efficacement l’IA dans une chaîne DevOps sans compromettre la qualité ou la sécurité ?
Pourquoi faire? Autant laisser les boîtes qui ne jurent que par ça s'écrouler sous le poids de leurs cochonneries. Ça fera de la place pour celles qui considèrent encore la qualité.

Citation Envoyé par Stéphane le calme Voir le message
L’IA est-elle capable de générer un code maintenable à long terme, ou produit-elle surtout du “jetable” ?
Non, c'est du jetable. Pour créer du code maintenable à long terme, cela demande des compétences et de la réflexion - ce dont une IA générative n'est pas dotée, puisqu'elle ne réfléchit pas...

Citation Envoyé par Stéphane le calme Voir le message
Faut-il former tous les développeurs à l’ingénierie de prompt et à la relecture de code IA ?
Des développeurs passant leur journée à ne plus coder mais à lire le code pourri généré par un programme seront-ils encore des développeurs? Sauront-il encore corriger du code? Pour combien de temps?
Pourquoi se préoccuper de former tous les développeurs aux outils complètement propriétaires d'une poignée d'entreprises cupides? Pour faire plaisir à leurs actionnaires? Si des entreprises ont officiellement besoin d'IA génératives, qu'elles forment elles-mêmes leurs développeurs.

Citation Envoyé par Stéphane le calme Voir le message
Les développeurs de demain seront-ils des "relecteurs de code IA" ou des "concepteurs augmentés" ? Quelles compétences humaines deviendront les plus valorisées face à l’automatisation du codage ?
Ni l'un ni l'autre. Les développeurs resteront des développeurs. Les autres seront de simples escrocs
8  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 18/04/2025 à 17:41
Quelle outrecuidance ! Vouloir garder ses activités loin des yeux du système que vous utilisez.

Exemple similaire aujourd'hui même après les dernières MAJ de Windows en passant un coup de BCU Uninstaller pour virer la partie installée en standalone de Copilot. Ça simule la désinstallation mais ça ne se désinstalle pas et ce, même en virant les clés de registre par la suite. Je relance la désinstallation par acquis de conscience, rien à faire Copilot reste accroché au système comme une moule à son rocher.
5  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 04/04/2025 à 10:53
Citation Envoyé par Artaeus Voir le message
Le "droit d'auteur" est surtout devenu un abus
ne jetons pas le bébé avec l'eau du bain, les droits d'auteurs n'ont pas évolués avec l'art (au sens large) ce qui en fait un objet plus ou moins obsolète que les gens vont respecter ou invoquer quand ça les arrange.
Et tu sais d'autant plus le faire quand tu es puissant, c'est à dire que Universal n'a aucun problème à réclamer des droits à l'association des cinéphiles de pélouaille les vignes mais n'a aucun problème à sampler une musique sans rien donner au musicien initial (ou sas ayants droit).

Oui, on ne peut pas tout faire avec un œuvre et ça parait plutôt logique.
Il me semble normal que Jean Michel Tube de l'été puisse vivre les pieds en éventails parce qu'il a écrit le tube de l'été 1996 et qu'on aime se le repasser à la radio tous les ans.
Ca me semble un peu moins normal que Jean Pierre Plagiat ai la même vie parce qu'il a rajouté un kick à la musique en 2009.
Et je sais bien que je ne parles pas de Jean Charles techno qui l'a samplé en 2012 parce que la frontière entre les précédents n'est pas si claire.
2  0 
Avatar de petitours
Membre émérite https://www.developpez.com
Le 18/04/2025 à 16:06
Comment ça ? quelqu'un pourrait ne pas vouloir d'un tel progrés ?
2  0 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 06/06/2025 à 13:56
Drôle d'époque où ce sont les entreprises privés qui défendent nos intérêts face aux délires étatiques de surveillance globale ...
On le voit en France aussi avec l'interdiction puritaine du porn par le gouv (en se servant des enfants comme prétexte bidon).
2  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
1  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
1  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2