IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI affirme que le New York Times a « piraté » ChatGPT pour générer des preuves trompeuses et intenter un procès sur les droits d'auteur
Une activité qui équivaut à des « attaques fabriquées »

Le , par Stéphane le calme

5PARTAGES

9  0 
Dans une requête déposée lundi, OpenAI affirme que le New York Times a utilisé des méthodes de hacking pour générer des preuves trompeuses dans le cadre de son procès en contrefaçon de droits d’auteur. Selon OpenAI, un tiers engagé par le Times a effectué des dizaines de milliers de tentatives pour obtenir des résultats hautement anormaux à partir de ChatGPT et d’autres systèmes d’intelligence artificielle. Le journal aurait utilisé des instructions trompeuses qui enfreignent clairement les conditions d’utilisation d’OpenAI pour inciter la technologie à reproduire son contenu.

OpenAI a accusé le New York Times d'avoir payé quelqu'un pour "pirater" ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.

En décembre, le NYT a intenté un procès à OpenAI et à son bailleur de fonds Microsoft, les accusant de s'être emparés sans autorisation du site web du journal pour entraîner de grands modèles de langage. L'action en justice comprenait ce qui était censé être la preuve que ChatGPT reproduisait des passages entiers d'articles du New York Times à la suite d'invites envoyées par les utilisateurs.

La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.


Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

Mais OpenAI n'est pas d'accord et demande au tribunal de rejeter l'affaire

OpenAI a toutefois riposté cette semaine à ces allégations en demandant au tribunal de rejeter l'affaire. La startup a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.

OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.

Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».

Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.

OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.

Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :

Citation Envoyé par OpenAI
Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
« Contrairement aux allégations de la plainte, ChatGPT n'est en aucun cas un substitut à un abonnement au New York Times », a déclaré OpenAI dans une requête visant à rejeter la majorité des demandes du Times. « Dans le monde réel, les gens n'utilisent pas ChatGPT ou tout autre produit d'OpenAI à cette fin. Ils ne le pourraient pas non plus. Dans le cours normal des choses, on ne peut pas utiliser ChatGPT pour servir des articles du Times à volonté ».

Dans sa plainte, OpenAI a décrit le Times comme ayant rendu compte avec enthousiasme de ses développements en matière de chatbot pendant des années, sans soulever la moindre inquiétude quant à la violation des droits d'auteur. OpenAI affirme avoir révélé que les articles du Times étaient utilisés pour entraîner ses modèles d'IA en 2020, mais que le Times ne s'en est préoccupé qu'après l'explosion de la popularité de ChatGPT après ses débuts en 2022.

Selon OpenAI, « ce n'est qu'après cette adoption rapide, ainsi que des rapports sur la valeur débloquée par ces nouvelles technologies », que le Times a prétendu qu'OpenAI avait « violé ses droits d'auteur » et a pris contact avec lui pour demander des « conditions commerciales ». Après des mois de discussions, le Times a intenté une action en justice deux jours après Noël, réclamant des « milliards de dollars ».


Des arguments sans fondements, pour les avocats du New York Times

Ian Crosby, associé de Susman Godfrey et avocat principal du New York Times, a déclaré que « ce qu'OpenAI qualifie bizarrement à tort de "piratage" consiste simplement à utiliser les produits d'OpenAI pour chercher des preuves qu'ils ont volé et reproduit les œuvres protégées par le droit d'auteur du Times. Et c'est exactement ce que nous avons trouvé. En fait, l'ampleur de la copie d'OpenAI est bien plus importante que la centaine d'exemples présentés dans la plainte ».

Crosby a déclaré que le dépôt d'OpenAI, notamment, « ne conteste pas - ni ne peut contester - le fait qu'ils ont copié des millions d'œuvres du Times pour construire et alimenter leurs produits commerciaux sans notre permission ». « Construire de nouveaux produits n'est pas une excuse pour violer la loi sur le droit d'auteur, et c'est exactement ce qu'OpenAI a fait à une échelle sans précédent », a déclaré Crosby.

OpenAI a fait valoir que le tribunal devrait « rejeter les plaintes relatives au droit d'auteur direct, à la contrefaçon contributive, aux violations du Digital Millennium Copyright Act et à l'appropriation illicite, qu'elle qualifie toutes d'"infirmes d'un point de vue juridique ». Certaines échouent parce qu'elles sont prescrites - la demande de dommages-intérêts sur les données de formation pour les anciens modèles d'OpenAI - a affirmé OpenAI. D'autres échouent parce qu'elles ne comprennent pas l'utilisation équitable ou parce que les lois fédérales l'emportent sur elles.

Si la requête d'OpenAI est acceptée, il ne restera probablement que les plaintes pour violation du droit d'auteur par personne interposée et pour dilution de marque.

Mais si le Times gagne - et c'est possible - OpenAI pourrait être obligée d'effacer ChatGPT et de repartir à zéro.

« OpenAI, qui a fait preuve de discrétion et a délibérément caché le fonctionnement de ses produits, affirme aujourd'hui qu'il est trop tard pour déposer une plainte pour infraction ou pour lui demander des comptes. Nous ne sommes pas d'accord », a déclaré Crosby. « Il est intéressant de noter qu'OpenAI ne conteste pas le fait qu'elle a copié les œuvres de Times sans autorisation dans le délai de prescription pour former ses modèles les plus récents et les plus actuels ».

Conclusion

Le Times fait partie des propriétaires de droits d’auteur qui ont intenté des poursuites contre des entreprises technologiques pour l’utilisation présumée abusive de leurs œuvres dans l’entraînement de l’intelligence artificielle. Les entreprises technologiques ont affirmé que leurs systèmes d’IA font un usage équitable du matériel protégé par le droit d’auteur et que les poursuites menacent la croissance de cette industrie potentiellement multitrillionnaire. Les tribunaux n’ont pas encore tranché la question clé de savoir si l’entraînement de l’IA constitue un usage équitable en vertu du droit d’auteur. Jusqu’à présent, les juges ont rejeté certaines accusations de violation du droit d’auteur concernant les résultats des systèmes d’IA génératifs, faute de preuves que le contenu créé par l’IA ressemble à des œuvres protégées par le droit d’auteur.

Source : OpenAI

Et vous ?

Pensez-vous que l’utilisation de modèles d’IA comme ChatGPT pour générer du contenu à partir d’articles protégés par le droit d’auteur constitue une violation des droits d’auteur ?
Devrions-nous revoir les lois sur les droits d’auteur pour tenir compte de l’entraînement de l’IA ?
Quelle est votre opinion sur la notion d’« usage équitable » en matière de droits d’auteur ? Devrait-elle s’appliquer différemment aux systèmes d’IA ?
Comment pouvons-nous équilibrer les droits des créateurs avec l’innovation technologique ?
Les entreprises technologiques devraient-elles être plus responsables de l’utilisation de leurs modèles d’IA par des tiers ?
Comment pouvons-nous encourager une utilisation éthique et responsable de l’IA ?
Devrions-nous exiger davantage de transparence de la part des entreprises qui développent des modèles d’IA ?
Comment pouvons-nous garantir que les utilisateurs comprennent les limites et les implications de ces technologies ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre émérite https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

8  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
3  0 
Avatar de Jules34
Membre expérimenté https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2 
Avatar de maxtal
Membre actif https://www.developpez.com
Le 10/04/2024 à 15:11
si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin
1  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
0  0 
Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 13/04/2024 à 8:38
Citation Envoyé par impopia Voir le message
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...
0  0 
Avatar de impopia
Membre régulier https://www.developpez.com
Le 13/04/2024 à 8:19
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...
0  1