IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence
D'après un nouveau rapport d'AI Disclosures Project

Le , par Jade Emy

46PARTAGES

8  0 
OpenAI accusée de former GPT-4o sur les livres payants d'O'Reilly Media sans accord de licence, d'après un nouveau rapport d'AI Disclosures Project

Un nouveau document publié par une organisation de surveillance de l'IA accuse sérieusement OpenAI de s'appuyer de plus en plus sur des livres non publics dont elle n'a pas obtenu la licence pour entraîner des modèles d'IA plus sophistiqués. Selon le rapport, GPT-4o a "reconnu" beaucoup plus de contenus de livres O'Reilly protégés par des droits d'auteur que les anciens modèles d'OpenAI, en particulier GPT-3.5 Turbo.

En 2024, des éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont déclaré que Microsoft et OpenAI avaient utilisé des millions de leurs articles sans paiement ni autorisation pour développer des modèles d'intelligence artificielle pour ChatGPT et d'autres produits. La manœuvre intervenait suite à une sortie d’OpenAI dans laquelle le créateur de ChatGPT reconnaît qu’il est impossible de créer des outils de ce genre sans contenus sous copyright.

Un récent rapport semble confirmer ces plaintes. Selon l'AI Disclosure Project, une organisation à but non lucratif cofondée par le directeur des médias Tim O'Reilly et l'économiste Ilan Strauss, le dernier modèle d'OpenAI, GPT-4o, avait été pré-entrainé sur le contenu des livres payés d'O'Reilly Media. Le rapport affirme notamment que GPT-4o reconnaît mieux les livres payants que les modèles précédents.

Les chercheurs ont mené des expériences sur plusieurs modèles d'IA ouverte, dont GPT-4o, en utilisant 13 962 paragraphes extraits d'un total de 34 livres publiés par O'Reilly Media. La technique d'analyse utilisée était « DE-COP », introduite pour la première fois dans le monde universitaire en 2024, qui permet d'estimer les données de formation en fonction de la capacité d'un modèle spécifique à distinguer les textes originaux des auteurs humains des phrases similaires générées par l'IA.

Les résultats montrent que GPT-4o "reconnaît" le contenu des livres privés d'O'Reilly beaucoup mieux que GPT-3.5 Turbo, un modèle antérieur d'OpenAI. Les chercheurs ont analysé que GPT-4o est susceptible d'avoir appris ces livres au cours du processus de formation. "GPT-4o a une conscience remarquable du contenu payant par rapport au modèle précédent d'OpenAI", a déclaré Tim O'Reilly. "Cela suggère que le modèle a appris le matériel." Il a également souligné qu'O'Reilly Media, dont il est le PDG, n'a signé aucun accord de licence avec OpenAI.


OpenAI a déjà été impliqué dans plusieurs procès liés aux droits d'auteur, et des critiques ont été régulièrement émises sur la manière dont les matériaux protégés par les droits d'auteur sont utilisés comme données d'apprentissage. En conséquence, OpenAI a signé des accords de licence payants avec certains créateurs de contenu et médias d'information et a également mis en place un processus d'« opt-out » pour demander l'exclusion de l'apprentissage de son modèle, mais ce système n'est pas encore considéré comme parfait.

Cependant, un autre rapport a révélé que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'IA GPT-3. Les avocats de la firme Authors Guild ont déclaré en mai 2024 que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'IA.

En outre, un ancien chercheur d'OpenAI, Suchir Balaji, avait déjà affirmé que l'entreprise a enfreint les lois sur le droit d'auteur américaines et détruit la viabilité commerciale des individus, des entreprises et des services Internet qui ont créé les données numériques utilisées pour entraîner ces systèmes d'IA. Il a notamment travaillé sur le modèle GPT-4 avant de quitter l'entreprise. Il était cité comme témoin dans les affaires judiciaires contre OpenAI comme ayant des « documents pertinents » sur la violation présumée des droits d'auteur par la startup. Malheureusement, il a été retrouvé mort dans son appartement le 26 novembre 2024.

Source : Rapport d'AI Disclosure Project

Et vous ?

Pensez-vous que ce rapport est crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI déclare la course à l'IA « terminée » si l'entraînement sur des œuvres protégées par le droit d'auteur n'est pas considéré comme une utilisation équitable, ajoutant que les États-Unis seraient perdants

« Complot d'assassinat » : la mère de Suchir Balaji, le lanceur d'alerte d'OpenAI, partage une photo prise le jour de sa mort et affirme que plusieurs caméras de vidéosurveillance ont cessé de fonctionner

Le New York Times et d'autres médias intentent un procès contre OpenAI qui pourrait mettre en jeu l'avenir de ChatGPT. Microsoft et OpenAI tentent de le faire annuler
Vous avez lu gratuitement 139 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 01/05/2025 à 12:32
Citation Envoyé par Stéphane le calme Voir le message
Le PDG de Microsoft affirme que jusqu'à 30 % du code de l'entreprise a été généré par son IA Copilot, innovation ou dépendance algorithmique ?
L’IA s’impose dans l’environnement quotidien des développeurs Microsoft
Quand on voit la teneur des correctifs des derniers patchs de sa société, il devrait plutôt faire profil bas...

Citation Envoyé par Stéphane le calme Voir le message
Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?
Non.

Citation Envoyé par Stéphane le calme Voir le message
Comment intégrer efficacement l’IA dans une chaîne DevOps sans compromettre la qualité ou la sécurité ?
Pourquoi faire? Autant laisser les boîtes qui ne jurent que par ça s'écrouler sous le poids de leurs cochonneries. Ça fera de la place pour celles qui considèrent encore la qualité.

Citation Envoyé par Stéphane le calme Voir le message
L’IA est-elle capable de générer un code maintenable à long terme, ou produit-elle surtout du “jetable” ?
Non, c'est du jetable. Pour créer du code maintenable à long terme, cela demande des compétences et de la réflexion - ce dont une IA générative n'est pas dotée, puisqu'elle ne réfléchit pas...

Citation Envoyé par Stéphane le calme Voir le message
Faut-il former tous les développeurs à l’ingénierie de prompt et à la relecture de code IA ?
Des développeurs passant leur journée à ne plus coder mais à lire le code pourri généré par un programme seront-ils encore des développeurs? Sauront-il encore corriger du code? Pour combien de temps?
Pourquoi se préoccuper de former tous les développeurs aux outils complètement propriétaires d'une poignée d'entreprises cupides? Pour faire plaisir à leurs actionnaires? Si des entreprises ont officiellement besoin d'IA génératives, qu'elles forment elles-mêmes leurs développeurs.

Citation Envoyé par Stéphane le calme Voir le message
Les développeurs de demain seront-ils des "relecteurs de code IA" ou des "concepteurs augmentés" ? Quelles compétences humaines deviendront les plus valorisées face à l’automatisation du codage ?
Ni l'un ni l'autre. Les développeurs resteront des développeurs. Les autres seront de simples escrocs
8  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 18/04/2025 à 17:41
Quelle outrecuidance ! Vouloir garder ses activités loin des yeux du système que vous utilisez.

Exemple similaire aujourd'hui même après les dernières MAJ de Windows en passant un coup de BCU Uninstaller pour virer la partie installée en standalone de Copilot. Ça simule la désinstallation mais ça ne se désinstalle pas et ce, même en virant les clés de registre par la suite. Je relance la désinstallation par acquis de conscience, rien à faire Copilot reste accroché au système comme une moule à son rocher.
5  0 
Avatar de Axel Mattauch
Membre averti https://www.developpez.com
Le 25/06/2025 à 12:50
Peut-on promettre aux utilisateurs un véritable droit à l’effacement quand des obligations judiciaires peuvent en suspendre l'exécution ?
Qui joue le plus à la vierge effarouchée?

En s’offusquant de se soumettre à une "obligation de conservation" les GAFAM & assimilés ne cherchent pas à préserver le quidam d'intrusion dans la sphère privée, puisque cette intrusion est le fond de commerce même desdites compagnies. Ce qu'elles veulent c'est pouvoir garder ce qu'elles veulent (y compris tout) sans qu'aucune juridiction ne puisse intervenir.

Le droit à l'effacement est du doux pipotage, quand c'est proclamé par les vampires de data.
3  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 04/04/2025 à 10:53
Citation Envoyé par Artaeus Voir le message
Le "droit d'auteur" est surtout devenu un abus
ne jetons pas le bébé avec l'eau du bain, les droits d'auteurs n'ont pas évolués avec l'art (au sens large) ce qui en fait un objet plus ou moins obsolète que les gens vont respecter ou invoquer quand ça les arrange.
Et tu sais d'autant plus le faire quand tu es puissant, c'est à dire que Universal n'a aucun problème à réclamer des droits à l'association des cinéphiles de pélouaille les vignes mais n'a aucun problème à sampler une musique sans rien donner au musicien initial (ou sas ayants droit).

Oui, on ne peut pas tout faire avec un œuvre et ça parait plutôt logique.
Il me semble normal que Jean Michel Tube de l'été puisse vivre les pieds en éventails parce qu'il a écrit le tube de l'été 1996 et qu'on aime se le repasser à la radio tous les ans.
Ca me semble un peu moins normal que Jean Pierre Plagiat ai la même vie parce qu'il a rajouté un kick à la musique en 2009.
Et je sais bien que je ne parles pas de Jean Charles techno qui l'a samplé en 2012 parce que la frontière entre les précédents n'est pas si claire.
2  0 
Avatar de petitours
Membre émérite https://www.developpez.com
Le 18/04/2025 à 16:06
Comment ça ? quelqu'un pourrait ne pas vouloir d'un tel progrés ?
2  0 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 06/06/2025 à 13:56
Drôle d'époque où ce sont les entreprises privés qui défendent nos intérêts face aux délires étatiques de surveillance globale ...
On le voit en France aussi avec l'interdiction puritaine du porn par le gouv (en se servant des enfants comme prétexte bidon).
2  0 
Avatar de J_P_P
Membre régulier https://www.developpez.com
Le 25/06/2025 à 19:23
La justice veut tout savoir, les pirates aussi ... toute conservation de données personnelles, telles des conversations,
même avec Chatgpt, doit être prohibée.
2  0 
Avatar de popo
Expert confirmé https://www.developpez.com
Le 03/07/2025 à 17:24
Un bref résumé serait de savoir s'il faut préserver les droits d'auteur et la RGPD ou bien laisser les fournisseurs d'IA faire ce qu'ils veulent.

Blagues à part, il y a quelques parties qui m'ont fait réagir.
Citation Envoyé par Stéphane le calme Voir le message
La controverse s'est intensifiée lorsque le NYT a accusé OpenAI d'avoir supprimé des preuves cruciales que son équipe juridique avait passé des heures à extraire, des données essentielles pour déterminer si ses articles avaient été utilisés dans l'entraînement des modèles d'IA d'OpenAI. OpenAI a rétorqué qu'il s'agissait d'un accident, cette suppression n'étant pas intentionnelle, selon l'entreprise.
Pas intentionnelle, bien entendu.
Ils prennent vraiment les gens pour des jambons.

Citation Envoyé par Stéphane le calme Voir le message
En mai 2025, la juge fédérale Ona Wang a statué en faveur du NYT sur un point-clé : OpenAI devra conserver tout contenu généré par ChatGPT via son site, ses apps et son API, y compris ceux que les utilisateurs ont supprimés. Cette décision a immédiatement suscité l’ire des défenseurs de la vie privée et de la transparence numérique. L’entreprise elle même l'a contestée, dénonçant un coût technique important, mais surtout une atteinte aux droits des utilisateurs, qui seraient privés de leur droit à l’oubli.
Outre le fait que cela nuit effectivement au droit à l'oubli.
Je n'ose même pas imaginer le cout colossal que ça aura de conserver tous les prompt et toutes les réponses.
Ce procès est bien parti pour s'éterniser et de nouvelles entrées vont devoir être stockées pendant ce temps.
Qui va payer la facture à la fin ?

Citation Envoyé par Stéphane le calme Voir le message
« Nous parlons de milliards de chats qui vont maintenant être conservés alors qu'ils ne l'étaient pas auparavant », a déclaré Edelson, en précisant qu'il a saisi des informations sur son historique médical personnel dans ChatGPT. « Les gens demandent des conseils sur leur mariage, s'inquiètent de perdre leur emploi. Ils disent des choses très personnelles. Et l'un des avantages d'OpenAI est que vous pouvez supprimer vos chats et que vous avez le droit de créer des chats temporaires ».
C'est bien quelque chose que j'ai du mal à comprendre.
Comment est-ce qu'on peut confier les détails de sa vie amoureuse ou des ses problèmes médicaux à une IA ?
On a des médecins, des psys, des conseillers conjugaux, qui sont tous soumis au secret.
Certes, je peux comprendre que le cout peut être un frein, mais confier cela à une IA, c'est tout déballer au grand public.
2  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 19/04/2025 à 14:28
Citation Envoyé par OrthodoxWindows Voir le message
Il faut trouver les fichiers associés à Copilot. Il faut que je cherche s'il y a des documentations à ce sujet. Une fois que c'est localisé, prendre les droits dessus et tout renommer ou supprimer.
Merci pour ton retour, j'investiguerais cette semaine. Peut être qu'un Debloater classique sur github ferait mieux le boulot que BCU.
1  0 
Avatar de SQLpro
Rédacteur https://www.developpez.com
Le 05/07/2025 à 19:02
Le pillage, par des machines, d'articles écrit par des humains, sans paiement des droits d'auteurs, asséchera le marché du journalisme. Comment les journalistes et les médias naturels pourrait-ils survivre sans financement ? La question est donc, voulons nous un monde ou seule la parole des machines compte ???
1  0