IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence
D'après un nouveau rapport d'AI Disclosures Project

Le , par Jade Emy

25PARTAGES

8  0 
OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence, d'après un nouveau rapport d'AI Disclosures Project

Un nouveau document publié par une organisation de surveillance de l'IA accuse sérieusement OpenAI de s'appuyer de plus en plus sur des livres non publics dont elle n'a pas obtenu la licence pour entraîner des modèles d'IA plus sophistiqués. Selon le rapport, GPT-4o a "reconnu" beaucoup plus de contenus de livres O'Reilly protégés par des droits d'auteur que les anciens modèles d'OpenAI, en particulier GPT-3.5 Turbo.

En 2024, des éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont déclaré que Microsoft et OpenAI avaient utilisé des millions de leurs articles sans paiement ni autorisation pour développer des modèles d'intelligence artificielle pour ChatGPT et d'autres produits. La manœuvre intervenait suite à une sortie d’OpenAI dans laquelle le créateur de ChatGPT reconnaît qu’il est impossible de créer des outils de ce genre sans contenus sous copyright.

Un récent rapport semble confirmer ces plaintes. Selon l'AI Disclosure Project, une organisation à but non lucratif cofondée par le directeur des médias Tim O'Reilly et l'économiste Ilan Strauss, le dernier modèle d'OpenAI, GPT-4o, avait été pré-entrainé sur le contenu des livres payés d'O'Reilly Media. Le rapport affirme notamment que GPT-4o reconnaît mieux les livres payants que les modèles précédents.

Les chercheurs ont mené des expériences sur plusieurs modèles d'IA ouverte, dont GPT-4o, en utilisant 13 962 paragraphes extraits d'un total de 34 livres publiés par O'Reilly Media. La technique d'analyse utilisée était « DE-COP », introduite pour la première fois dans le monde universitaire en 2024, qui permet d'estimer les données de formation en fonction de la capacité d'un modèle spécifique à distinguer les textes originaux des auteurs humains des phrases similaires générées par l'IA.

Les résultats montrent que GPT-4o "reconnaît" le contenu des livres privés d'O'Reilly beaucoup mieux que GPT-3.5 Turbo, un modèle antérieur d'OpenAI. Les chercheurs ont analysé que GPT-4o est susceptible d'avoir appris ces livres au cours du processus de formation. "GPT-4o a une conscience remarquable du contenu payant par rapport au modèle précédent d'OpenAI", a déclaré Tim O'Reilly. "Cela suggère que le modèle a appris le matériel." Il a également souligné qu'O'Reilly Media, dont il est le PDG, n'a signé aucun accord de licence avec OpenAI.


OpenAI a déjà été impliqué dans plusieurs procès liés aux droits d'auteur, et des critiques ont été régulièrement émises sur la manière dont les matériaux protégés par les droits d'auteur sont utilisés comme données d'apprentissage. En conséquence, OpenAI a signé des accords de licence payants avec certains créateurs de contenu et médias d'information et a également mis en place un processus d'« opt-out » pour demander l'exclusion de l'apprentissage de son modèle, mais ce système n'est pas encore considéré comme parfait.

Cependant, un autre rapport a révélé que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'IA GPT-3. Les avocats de la firme Authors Guild ont déclaré en mai 2024 que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'IA.

En outre, un ancien chercheur d'OpenAI, Suchir Balaji, avait déjà affirmé que l'entreprise a enfreint les lois sur le droit d'auteur américaines et détruit la viabilité commerciale des individus, des entreprises et des services Internet qui ont créé les données numériques utilisées pour entraîner ces systèmes d'IA. Il a notamment travaillé sur le modèle GPT-4 avant de quitter l'entreprise. Il était cité comme témoin dans les affaires judiciaires contre OpenAI comme ayant des « documents pertinents » sur la violation présumée des droits d'auteur par la startup. Malheureusement, il a été retrouvé mort dans son appartement le 26 novembre 2024.

Source : Rapport d'AI Disclosure Project

Et vous ?

Pensez-vous que ce rapport est crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI déclare la course à l'IA « terminée » si l'entraînement sur des œuvres protégées par le droit d'auteur n'est pas considéré comme une utilisation équitable, ajoutant que les États-Unis seraient perdants

« Complot d'assassinat » : la mère de Suchir Balaji, le lanceur d'alerte d'OpenAI, partage une photo prise le jour de sa mort et affirme que plusieurs caméras de vidéosurveillance ont cessé de fonctionner

Le New York Times et d'autres médias intentent un procès contre OpenAI qui pourrait mettre en jeu l'avenir de ChatGPT. Microsoft et OpenAI tentent de le faire annuler
Vous avez lu gratuitement 494 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 18/04/2025 à 17:41
Quelle outrecuidance ! Vouloir garder ses activités loin des yeux du système que vous utilisez.

Exemple similaire aujourd'hui même après les dernières MAJ de Windows en passant un coup de BCU Uninstaller pour virer la partie installée en standalone de Copilot. Ça simule la désinstallation mais ça ne se désinstalle pas et ce, même en virant les clés de registre par la suite. Je relance la désinstallation par acquis de conscience, rien à faire Copilot reste accroché au système comme une moule à son rocher.
5  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 04/04/2025 à 10:53
Citation Envoyé par Artaeus Voir le message
Le "droit d'auteur" est surtout devenu un abus
ne jetons pas le bébé avec l'eau du bain, les droits d'auteurs n'ont pas évolués avec l'art (au sens large) ce qui en fait un objet plus ou moins obsolète que les gens vont respecter ou invoquer quand ça les arrange.
Et tu sais d'autant plus le faire quand tu es puissant, c'est à dire que Universal n'a aucun problème à réclamer des droits à l'association des cinéphiles de pélouaille les vignes mais n'a aucun problème à sampler une musique sans rien donner au musicien initial (ou sas ayants droit).

Oui, on ne peut pas tout faire avec un œuvre et ça parait plutôt logique.
Il me semble normal que Jean Michel Tube de l'été puisse vivre les pieds en éventails parce qu'il a écrit le tube de l'été 1996 et qu'on aime se le repasser à la radio tous les ans.
Ca me semble un peu moins normal que Jean Pierre Plagiat ai la même vie parce qu'il a rajouté un kick à la musique en 2009.
Et je sais bien que je ne parles pas de Jean Charles techno qui l'a samplé en 2012 parce que la frontière entre les précédents n'est pas si claire.
2  0 
Avatar de petitours
Membre émérite https://www.developpez.com
Le 18/04/2025 à 16:06
Comment ça ? quelqu'un pourrait ne pas vouloir d'un tel progrés ?
2  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 19/04/2025 à 14:28
Citation Envoyé par OrthodoxWindows Voir le message
Il faut trouver les fichiers associés à Copilot. Il faut que je cherche s'il y a des documentations à ce sujet. Une fois que c'est localisé, prendre les droits dessus et tout renommer ou supprimer.
Merci pour ton retour, j'investiguerais cette semaine. Peut être qu'un Debloater classique sur github ferait mieux le boulot que BCU.
1  0 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 02/04/2025 à 20:53
Le "droit d'auteur" est surtout devenu un abus :
Il a été tellement détourné qu'il est responsable de l'interdiction du prêt (via les DRM), de la censure DNS d'internet, des blocages du "piracy shield" italien.
L'IA ne copie pas, elle apprend, tout comme nous : Bientôt on devra payer une licence pour réutiliser une connaissance issue d'un document sous "droit d'auteur" ?
2  2 
Avatar de der§en
Membre expérimenté https://www.developpez.com
Le 02/04/2025 à 21:59
J’ai lu des livres que je n’ai pas acheté et dont j’ai tiré profit, moi aussi, j’aurais violé le droit d’auteur ?
0  0 
Avatar de smarties
Expert confirmé https://www.developpez.com
Le 03/04/2025 à 8:10
On peut lire des livre en en tirant profil gratuitement dans les bibliothèques/médiathèques déjà
0  0 
Avatar de AoCannaille
Expert confirmé https://www.developpez.com
Le 03/04/2025 à 11:52
Citation Envoyé par der§en Voir le message
J’ai lu des livres que je n’ai pas acheté et dont j’ai tiré profit, moi aussi, j’aurais violé le droit d’auteur ?
Si tu as lu des livres et donné des formations avec des formulations et/ou des exemples tirés du livre, oui. Et c'est d'une certaine façon ce que font les IA.
0  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 19/04/2025 à 2:45
Citation Envoyé par Bardaz Voir le message
Quelle outrecuidance ! Vouloir garder ses activités loin des yeux du système que vous utilisez.

Exemple similaire aujourd'hui même après les dernières MAJ de Windows en passant un coup de BCU Uninstaller pour virer la partie installée en standalone de Copilot. Ça simule la désinstallation mais ça ne se désinstalle pas et ce, même en virant les clés de registre par la suite. Je relance la désinstallation par acquis de conscience, rien à faire Copilot reste accroché au système comme une moule à son rocher.
Il faut trouver les fichiers associés à Copilot. Il faut que je cherche s'il y a des documentations à ce sujet. Une fois que c'est localisé, prendre les droits dessus et tout renommer ou supprimer.
0  0