IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le New York Times pourrait gagner son procès sur les droits d'auteur contre OpenAI
D'après une analyse de James Grimmelmann, professeur de droit, et Timothy Lee

Le , par Stéphane le calme

2PARTAGES

4  0 
Le New York Times a intenté une action en justice contre OpenAI, la société à l’origine du générateur de texte GPT-4, qu’elle accuse d’avoir utilisé sans autorisation des extraits de ses articles pour entraîner son intelligence artificielle. Le journal affirme que cette pratique constitue une violation de ses droits d’auteur et qu’elle porte atteinte à son intégrité journalistique. OpenAI, de son côté, se défend en invoquant le principe du fair use, qui permet d’utiliser des œuvres protégées à des fins d’éducation, de recherche ou de critique, sans avoir besoin de l’accord des ayants droit. La société soutient que son objectif est de créer une intelligence artificielle bénéfique pour l’humanité et qu’elle ne cherche pas à concurrencer ou à nuire au New York Times.

L'auteur et architecte de systèmes Daniel Jeffries a fait une longue publication sur X/Twitter, comme un essai, dans laquelle il affirme que le Times « a une probabilité quasi nulle de gagner » son procès. Datant d'après la plainte du New York Times contre OpenAI, son message a déjà été retweeté 290 fois et a été consulté 886 000 fois.

« Essayer de faire en sorte que tout le monde prenne une licence pour les données de formation ne fonctionnera pas, car ce n'est pas l'objet du droit d'auteur », a écrit Jeffries. « La loi sur le droit d'auteur vise à empêcher les gens de produire des copies exactes ou presque exactes d'un contenu et de les publier à des fins commerciales. C'est tout. Quiconque vous dit le contraire ment ou ne comprend tout simplement pas comment fonctionne le droit d'auteur ».

Mais cette façon de comprendre le problème n'a pas fait l'unanimité.

Deux auteurs se sont laissés aller à une analyse différente. L'un d'eux est un journaliste qui s'intéresse au droit d'auteur depuis près de 20 ans. L'autre est un professeur de droit qui a donné des dizaines de cours sur la propriété intellectuelle et le droit de l'internet : « Nous sommes à peu près sûrs de comprendre comment fonctionne le droit d'auteur. Et nous sommes ici pour avertir la communauté de l'IA qu'elle doit prendre ces poursuites au sérieux ».

Copie et usage loyal

En 2004, Google a lancé publiquement un projet audacieux visant à numériser des millions de livres pour les utiliser dans un moteur de recherche. Les auteurs et les éditeurs ont intenté un procès, arguant qu'il était illégal de copier sans autorisation un si grand nombre d'œuvres protégées par des droits d'auteur. Google a rétorqué que cela était autorisé par l'usage loyal.

Les tribunaux sont censés prendre en compte quatre facteurs dans les affaires d'usage loyal, mais deux de ces facteurs tendent à être les plus importants. Le premier est la nature de l'utilisation. Une utilisation est plus susceptible d'être équitable si elle est "transformative", c'est-à-dire si la nouvelle utilisation a un objectif et un caractère radicalement différents de l'original.

Google a fait valoir qu'un moteur de recherche de livres est hautement transformatif parce qu'il remplit une fonction très différente de celle d'un livre individuel. Les gens lisent des livres pour les apprécier et en tirer des enseignements. Mais un moteur de recherche ressemble davantage à un catalogue de cartes ; il aide les gens à trouver des livres.

L'autre facteur clé est l'impact de l'utilisation sur le marché de l'œuvre originale. Ici aussi, Google disposait d'un argument de poids puisqu'un moteur de recherche de livres aide les gens à trouver de nouveaux livres à acheter.

Google a soigneusement conçu son moteur de recherche pour maximiser ses chances de gagner sur ce point. Google Book Search n'affiche qu'un court "extrait" d'une page donnée dans un résultat de recherche, et l'entreprise a veillé à ce que les utilisateurs ne puissent pas reconstituer un livre entier en effectuant plusieurs recherches. Google a également exclu les dictionnaires, les livres de cuisine et d'autres ouvrages de référence des résultats de recherche, car les utilisateurs pourraient rechercher des mots individuels sur Google au lieu d'acheter le dictionnaire entier.

En 2015, le deuxième circuit a tranché en faveur de Google. Un thème important de l'avis de la Cour est que le moteur de recherche de Google fournissait aux utilisateurs des informations factuelles, non soumises au droit d'auteur, plutôt que de reproduire une grande partie de l'expression créative des livres eux-mêmes. Comme l'a expliqué le tribunal :

Un étudiant qui rédige un travail sur Franklin D. Roosevelt pourrait avoir besoin d'apprendre l'année où Roosevelt a été frappé par la polio. En tapant "Roosevelt polio" dans une recherche Google Books, l'étudiant serait dirigé (parmi de nombreux sites) vers un extrait de la page 31 de l'ouvrage de Richard Thayer Goldberg, The Making of Franklin D. Roosevelt (1981), indiquant que l'attaque de polio s'est produite en 1921. Le chercheur aurait ainsi satisfait son besoin de connaître le livre, sans avoir à l'acheter ou à l'acquérir auprès d'une bibliothèque. Mais ce que le chercheur a tiré de cet extrait est un fait historique. Le droit d'auteur de l'auteur Goldberg ne s'étend pas aux faits communiqués par son livre.
Le deuxième circuit a conclu que « la réalisation par Google d'une copie numérique pour fournir une fonction de recherche est une utilisation transformative, qui augmente la connaissance du public en rendant disponibles des informations sur les livres des plaignants sans fournir au public un substitut substantiel des livres ».

Les défenseurs d'OpenAI, de Stability AI et d'autres sociétés d'IA ont fait valoir qu'elles faisaient la même chose que Google : apprendre des informations sur les œuvres dans les données d'apprentissage, mais ne pas reproduire l'expression créative dans les œuvres elles-mêmes.

Mais contrairement au moteur de recherche de Google, les modèles d'IA générative produisent parfois des œuvres créatives qui entrent directement en concurrence avec les œuvres sur lesquelles ils ont été formés. Cela place ces défendeurs dans une position juridique plus faible que celle de Google il y a dix ans.


L'IA générative a un problème du « plombier italien »

Les auteurs indiquent avoir récemment visité le site Web de Stability AI et demandé à son modèle d'image Stable Diffusion de générer l'image d'un « plombier italien de jeu vidéo ». Tout comme leur essai avec GPT-4, la première image générée est celle d'un personnage ressemblant à Mario, avec un "M" sur sa casquette.

Il est clair que ces modèles n'ont pas seulement appris des faits abstraits sur les plombiers - par exemple, qu'ils portent une salopette et des clés à molette. Ils ont appris des faits sur un plombier italien fictif spécifique qui porte des gants blancs, une salopette bleue avec des boutons jaunes et un chapeau rouge avec un "M" sur le devant.

Il ne s'agit pas de faits sur le monde qui sont hors de portée du droit d'auteur. Au contraire, les choix créatifs qui définissent Mario sont probablement couverts par les droits d'auteur détenus par Nintendo.
En fait, certains ont commencé à noter que DALL-E reproduisait des œuvres protégées. Par exemple, cet internaute qui déclare : « Il devrait être clair désormais que même des invites très vagues conduisent systématiquement à des violations de droits d'auteur et/ou de marques déposées. Comment la responsabilité peut-elle être imputée à l’utilisateur alors que le modèle genAI s’efforce de commettre des infractions sans y être invité ? »

Ou encore Justine Moore de A16Z qui déclare : « Nous gagnons définitivement la bataille du droit d’auteur, les gars. Ces frères italiens ne ressemblent en rien à Mario et Luigi ».

Reid Southern, concepteur et illustrateur de films, a déclaré avoir trouvé une « preuve irréfutable de la violation flagrante du droit d'auteur de Midjourney ».

Dans son procès contre OpenAI, le New York Times a fourni 100 exemples de GPT-4 générant de longs extraits quasi verbatim d'articles du Times :


Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge

De nombreux membres de la communauté de l'IA ont sous-estimé l'importance de ces exemples

Les partisans de l'utilisation équitable aiment diviser l'analyse en deux étapes, ce que l'on peut voir dans le billet de blog d'OpenAI sur le procès du New York Times. OpenAI affirme d'abord catégoriquement que « l'entraînement de modèles d'intelligence artificielle à l'aide de matériel Internet accessible au public constitue un usage loyal ». Puis, dans une section distincte, OpenAI affirme que « la régurgitation » est « un bogue rare que nous nous efforçons de réduire à zéro ».

Mais les tribunaux ont tendance à analyser une telle question de manière globale ; la légalité de la copie initiale dépend des détails de l'utilisation finale des données copiées.

Par exemple, lorsque le deuxième circuit a examiné la légalité de la numérisation de livres par Google, il a examiné de près le fonctionnement du moteur de recherche de livres de Google. La décision a noté que les utilisateurs ne voyaient jamais que de courts extraits et ne pouvaient jamais récupérer de plus longs passages d'un livre protégé par le droit d'auteur.

OpenAI considère les résultats régurgités comme un « rare bogue » - et c'est peut-être le cas. Mais Google a pu dire aux tribunaux que son moteur de recherche ne reproduit jamais plus qu'une petite fraction d'un livre protégé par le droit d'auteur sans autorisation, parce qu'il ne le peut pas.

Conclusion

Les développeurs d'IA générative disposent d'arguments solides pour répondre aux poursuites en matière de droit d'auteur. Ils peuvent mettre en avant la valeur que leurs systèmes d'IA apportent aux utilisateurs, les façons créatives dont l'IA générative s'appuie sur des œuvres existantes et les remixe, ainsi que leurs efforts continus pour réduire la mémorisation.

Mais tous ces bons arguments ont un point commun : ils prennent au sérieux les questions de droit d'auteur. Ces réponses reconnaissent que l'IA générative repose sur une base de données d'apprentissage, dont une grande partie est protégée par le droit d'auteur, et tentent ensuite de montrer que toutes ces copies sont justifiées plutôt que non pertinentes.

Sources : OpenAI, l'IA générative a un problème de plagiat visuel, Timothy Lee et James Grimmelmann

Et vous ?

Quelle est votre opinion sur l’utilisation des articles du New York Times par OpenAI pour entraîner son intelligence artificielle ?
Pensez-vous que le fair use soit un argument valable pour justifier cette pratique ?
Quels sont les risques et les bénéfices potentiels de l’intelligence artificielle pour le journalisme et la société en général ?
Quelles seraient les conséquences d’une victoire du New York Times ou d’OpenAI ?
Comment protéger les droits d’auteur des créateurs de contenu tout en favorisant l’innovation technologique ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre émérite https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

8  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
3  0 
Avatar de Jules34
Membre expérimenté https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2 
Avatar de maxtal
Membre actif https://www.developpez.com
Le 10/04/2024 à 15:11
si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin
1  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
0  0 
Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 13/04/2024 à 8:38
Citation Envoyé par impopia Voir le message
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...
0  0 
Avatar de impopia
Membre régulier https://www.developpez.com
Le 13/04/2024 à 8:19
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...
0  1