OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence

D'après un nouveau rapport d'AI Disclosures Project

Le 2 avril 2025 à 18:31, par Jade Emy

111PARTAGES

OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence, d'après un nouveau rapport d'AI Disclosures Project

Un nouveau document publié par une organisation de surveillance de l'IA accuse sérieusement OpenAI de s'appuyer de plus en plus sur des livres non publics dont elle n'a pas obtenu la licence pour entraîner des modèles d'IA plus sophistiqués. Selon le rapport, GPT-4o a "reconnu" beaucoup plus de contenus de livres O'Reilly protégés par des droits d'auteur que les anciens modèles d'OpenAI, en particulier GPT-3.5 Turbo.

En 2024, des éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont déclaré que Microsoft et OpenAI avaient utilisé des millions de leurs articles sans paiement ni autorisation pour développer des modèles d'intelligence artificielle pour ChatGPT et d'autres produits. La manœuvre intervenait suite à une sortie d’OpenAI dans laquelle le créateur de ChatGPT reconnaît qu’il est impossible de créer des outils de ce genre sans contenus sous copyright.

Un récent rapport semble confirmer ces plaintes. Selon l'AI Disclosure Project, une organisation à but non lucratif cofondée par le directeur des médias Tim O'Reilly et l'économiste Ilan Strauss, le dernier modèle d'OpenAI, GPT-4o, avait été pré-entrainé sur le contenu des livres payés d'O'Reilly Media. Le rapport affirme notamment que GPT-4o reconnaît mieux les livres payants que les modèles précédents.

Les chercheurs ont mené des expériences sur plusieurs modèles d'IA ouverte, dont GPT-4o, en utilisant 13 962 paragraphes extraits d'un total de 34 livres publiés par O'Reilly Media. La technique d'analyse utilisée était « DE-COP », introduite pour la première fois dans le monde universitaire en 2024, qui permet d'estimer les données de formation en fonction de la capacité d'un modèle spécifique à distinguer les textes originaux des auteurs humains des phrases similaires générées par l'IA.

Les résultats montrent que GPT-4o "reconnaît" le contenu des livres privés d'O'Reilly beaucoup mieux que GPT-3.5 Turbo, un modèle antérieur d'OpenAI. Les chercheurs ont analysé que GPT-4o est susceptible d'avoir appris ces livres au cours du processus de formation. "GPT-4o a une conscience remarquable du contenu payant par rapport au modèle précédent d'OpenAI", a déclaré Tim O'Reilly. "Cela suggère que le modèle a appris le matériel." Il a également souligné qu'O'Reilly Media, dont il est le PDG, n'a signé aucun accord de licence avec OpenAI.

OpenAI a déjà été impliqué dans plusieurs procès liés aux droits d'auteur, et des critiques ont été régulièrement émises sur la manière dont les matériaux protégés par les droits d'auteur sont utilisés comme données d'apprentissage. En conséquence, OpenAI a signé des accords de licence payants avec certains créateurs de contenu et médias d'information et a également mis en place un processus d'« opt-out » pour demander l'exclusion de l'apprentissage de son modèle, mais ce système n'est pas encore considéré comme parfait.

Cependant, un autre rapport a révélé que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'IA GPT-3. Les avocats de la firme Authors Guild ont déclaré en mai 2024 que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'IA.

En outre, un ancien chercheur d'OpenAI, Suchir Balaji, avait déjà affirmé que l'entreprise a enfreint les lois sur le droit d'auteur américaines et détruit la viabilité commerciale des individus, des entreprises et des services Internet qui ont créé les données numériques utilisées pour entraîner ces systèmes d'IA. Il a notamment travaillé sur le modèle GPT-4 avant de quitter l'entreprise. Il était cité comme témoin dans les affaires judiciaires contre OpenAI comme ayant des « documents pertinents » sur la violation présumée des droits d'auteur par la startup. Malheureusement, il a été retrouvé mort dans son appartement le 26 novembre 2024.

Source : Rapport d'AI Disclosure Project

Et vous ?

Pensez-vous que ce rapport est crédible ou pertinent ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI déclare la course à l'IA « terminée » si l'entraînement sur des œuvres protégées par le droit d'auteur n'est pas considéré comme une utilisation équitable, ajoutant que les États-Unis seraient perdants

« Complot d'assassinat » : la mère de Suchir Balaji, le lanceur d'alerte d'OpenAI, partage une photo prise le jour de sa mort et affirme que plusieurs caméras de vidéosurveillance ont cessé de fonctionner

Le New York Times et d'autres médias intentent un procès contre OpenAI qui pourrait mettre en jeu l'avenir de ChatGPT. Microsoft et OpenAI tentent de le faire annuler

Vous avez lu gratuitement 12 377 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :