Un litige déjà complexe
Le New York Times accuse OpenAI de violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner des modèles d'IA. Ce type d'entraînement, connu sous le nom de data scraping ou d'extraction de données, consiste à collecter des informations sur Internet pour améliorer les performances des modèles. Cependant, cette pratique soulève des questions juridiques sur les droits des créateurs de contenu.
Dans ce contexte, les tribunaux s'appuient souvent sur des preuves détaillant la manière dont les données ont été collectées, stockées et utilisées. Ces preuves peuvent inclure des logs d'activité, des bases de données ou même des captures d'écran montrant les processus internes des entreprises.
La suppression accidentelle
Selon des documents judiciaires récents, OpenAI aurait supprimé des informations importantes qui auraient pu être utilisées comme preuve dans l'affaire. Bien que l’entreprise affirme que cette suppression n’était pas intentionnelle, elle pourrait avoir des répercussions importantes sur le déroulement du procès.
L’absence de ces preuves pourrait donner l'impression qu'OpenAI n’a pas pris suffisamment au sérieux ses obligations légales en matière de conservation des données, notamment dans le cadre d’un litige aussi sensible. De plus, cela pourrait compliquer la tâche des juges et des avocats pour évaluer objectivement la légitimité des allégations du New York Times.
Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge
L'affaire en question
Les avocats du New York Times et du Daily News, qui poursuivent OpenAI pour avoir prétendument utilisé leurs œuvres pour entraîner ses modèles d'intelligence artificielle sans autorisation, affirment que les ingénieurs d'OpenAI ont accidentellement supprimé des données potentiellement pertinentes pour l'affaire.
Au début de l'automne, OpenAI a accepté de fournir deux machines virtuelles afin que les avocats du Times et du Daily News puissent effectuer des recherches sur leurs contenus protégés par le droit d'auteur dans les jeux d'entraînement de l'IA. Dans une lettre, les avocats des éditeurs déclarent qu'ils ont passé, avec les experts qu'ils ont engagés, plus de 150 heures depuis le 1er novembre à rechercher les données d'entraînement d'OpenAI.
Mais le 14 novembre, les ingénieurs d'OpenAI ont effacé toutes les données de recherche des éditeurs stockées sur l'une des machines virtuelles, selon la lettre susmentionnée, qui a été déposée au tribunal de district des États-Unis pour le district sud de New York mercredi.
OpenAI a tenté de récupérer les données, avec succès. Cependant, la structure des dossiers et les noms de fichiers ayant été « irrémédiablement » perdus, les données récupérées « ne peuvent pas être utilisées pour déterminer où les articles copiés par les plaignants ont été utilisés pour construire les modèles [d'OpenAI] », selon la lettre.
Dans cette affaire et dans d'autres, OpenAI a soutenu que l'entraînement de modèles à l'aide de données accessibles au public - y compris des articles du Times et du Daily News - constituait un usage loyal. En d'autres termes, en créant des modèles tels que GPT-4o, qui « apprennent » à partir de milliards d'exemples de livres électroniques, d'essais et autres pour générer des textes à consonance humaine, OpenAI estime qu'elle n'est pas tenue de concéder des licences ou de payer pour ces exemples, même si elle gagne de l'argent grâce à ces modèles.
Cela dit, OpenAI a conclu des accords de licence avec un nombre croissant de nouveaux éditeurs, dont l'Associated Press, Axel Springer, propriétaire de Business Insider, le Financial Times, Dotdash Meredith, société mère de People, et News Corp. OpenAI a refusé de rendre publiques les conditions de ces accords, mais l'un des partenaires de contenu, Dotdash, recevrait au moins 16 millions de dollars par an.
« Les plaignants ont été contraints de recréer leur travail à partir de zéro en utilisant un nombre important d'heures de travail et de temps de traitement informatique », ont écrit les avocats du Times et du Daily News. « Les plaignants n'ont appris qu'hier que les données récupérées étaient inutilisables et qu'une semaine entière de travail de leurs experts et avocats devait être refaite, ce qui explique pourquoi cette lettre complémentaire est déposée aujourd'hui ».
Les avocats des plaignants précisent qu'ils n'ont aucune raison de croire que la suppression était intentionnelle. Mais ils affirment que l'incident souligne qu'OpenAI « est la mieux placée pour rechercher dans ses propres ensembles de données » des contenus potentiellement illicites à l'aide de ses propres outils.
Les enjeux pour OpenAI et l’industrie
Ce litige dépasse le simple conflit entre OpenAI et le New York Times. Il met en lumière un enjeu fondamental dans l’industrie de l’intelligence artificielle : le respect des droits des créateurs de contenu face à une technologie qui s’appuie massivement sur des données préexistantes.
Si le tribunal décide en faveur du Times, cela pourrait créer un précédent juridique contraignant pour OpenAI et d'autres entreprises développant des modèles d'IA. Ces entreprises pourraient être obligées d’instaurer des pratiques de transparence accrues, notamment en matière de collecte et d’utilisation des données.
OpenAI estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement »
La formation des modèles d’IA, tels que ceux développés par OpenAI, nécessite une quantité massive de données. Selon OpenAI, les matériaux disponibles dans le domaine public ne suffisent pas pour créer des modèles capables de répondre aux besoins actuels des utilisateurs. L’entreprise affirme que le droit d’auteur couvre pratiquement toutes les formes d’expression humaine, rendant ainsi indispensable l’utilisation de contenus protégés pour former des IA performantes.
Cette position a provoqué une vague de réactions négatives, notamment de la part de grandes institutions comme le New York Times et la Authors Guild. Ces entités accusent OpenAI de violer massivement les droits d’auteur et de profiter commercialement des œuvres protégées sans compensation adéquate. Les auteurs célèbres, tels que John Grisham et George R.R. Martin, ont également rejoint les rangs des plaignants, soulignant que l’utilisation non autorisée de leurs œuvres menace leur subsistance.
Les arguments d'OpenAI
OpenAI supplie le Parlement britannique de l'autoriser à utiliser des œuvres protégées par le droit d'auteur, car il lui serait « impossible » d'entraîner ses modèles d'intelligence artificielle - et de poursuivre la croissance de son entreprise, qui pèse plusieurs milliards de dollars - sans ces œuvres.
La société d'intelligence artificielle a déclaré dans un document soumis à une sous-commission de la Chambre des Lords que l'utilisation exclusive de contenus du domaine public serait insuffisante pour entraîner le type de grands modèles de langage (LLM) qu'elle construit, suggérant que l'entreprise doit donc être autorisée à utiliser du matériel protégé par le droit d'auteur.
« Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d'entraîner les meilleurs modèles d'IA actuels sans utiliser des documents protégés par le droit d'auteur », a écrit l'entreprise dans son dossier de preuves. « Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui ».
OpenAI poursuit en insistant dans le document, soumis au comité des communications et du numérique de la Chambre des Lords, sur le fait qu'elle se conforme aux lois sur le droit d'auteur et qu'elle estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement ».
Des auteurs, dont George RR Martin, ont également intenté un procès à OpenAI
Sans l'utilisation d'œuvres protégées par le droit d'auteur, OpenAI « aurait un produit commercial très différent »
De plus en plus de parties intéressées s'opposent fermement à l'affirmation d'OpenAI selon laquelle l'utilisation d'œuvres protégées par le droit d'auteur pour entraîner l'IA est légale et sans danger.
Le New York Times a intenté un procès à OpenAI et à Microsoft, son principal investisseur, pour avoir profité d'une prétendue « violation massive des droits d'auteur, d'une exploitation commerciale et d'une appropriation illicite » de la propriété intellectuelle du quotidien.
Le journal en question est loin d'être le seul à s'attaquer à OpenAI. Quelques mois auparavant, l'Authors Guild a poursuivi l'entreprise au nom de certains des plus grands noms de la fiction - dont John Grisham, Jodi Picoult, Jonathan Franzen, David Baldacci et George R.R. Martin - parce qu'elle s'opposait à ce que les œuvres de ces écrivains soient utilisées pour former ChatGPT.
Sans l'utilisation d'œuvres protégées par le droit d'auteur, OpenAI « aurait un produit commercial très différent », a déclaré Rachel Geman, l'un des avocats de la guilde dans le cadre de l'action collective, dans un communiqué de presse relatif au dépôt de la plainte. En tant que telle, la décision de l'entreprise de copier les œuvres des auteurs, sans offrir de choix ni de compensation, menace le rôle et les moyens de subsistance des écrivains dans leur ensemble.
Du côté d'OpenAI, la société affirme qu'elle cherche à établir de nouveaux partenariats avec des éditeurs. Quoi qu'il en soit, il est difficile d'imaginer que chaque journal, site web ou maison d'édition accepte de telles conditions en bloc, et encore moins les écrivains indépendants qui dépendent de leurs droits d'auteur pour gagner leur vie.
OpenAI a toutefois admis qu'il y avait « encore du travail à faire pour soutenir les créateurs et leur donner les moyens d'agir ». L'entreprise a évoqué les moyens mis en œuvre pour permettre aux éditeurs d'empêcher le robot GPTBot d'accéder à leurs sites web. Elle a également indiqué qu'elle mettait au point des mécanismes supplémentaires permettant aux titulaires de droits de se retirer de la formation et qu'elle s'engageait avec eux à trouver des accords mutuellement bénéfiques.
Dans certaines des actions en justice intentées contre OpenAI et Microsoft, les plaignants accusent les sociétés de refuser de payer les auteurs pour leur travail tout en construisant une industrie d'un milliard de dollars et en profitant d'un énorme gain financier à partir de matériel protégé par le droit d'auteur. Dans un cas, déposé par un couple d'auteurs de non-fiction, il est soutenu que les entreprises auraient pu explorer d'autres options de financement, telles que la participation aux bénéfices, mais qu'elles ont « décidé de voler » à la place.
Conclusion
Alors que le procès entre le New York Times et OpenAI continue, l'industrie technologique suit de près les développements de cette affaire. Si la suppression des preuves par OpenAI était réellement accidentelle, elle met néanmoins en lumière l’importance cruciale pour les entreprises d’adopter des protocoles robustes de conservation des données, en particulier lorsqu’elles opèrent dans des domaines juridiquement sensibles.
Ce litige n’est pas seulement une question de droits d'auteur : il représente un tournant potentiel pour l’avenir de l’IA et de son interaction avec le contenu protégé.
Source : lettre
Et vous ?
La suppression accidentelle de preuves par OpenAI peut-elle être considérée comme une négligence, et dans quelle mesure cela affecte-t-il leur crédibilité juridique ? D'ailleurs, pensez-vous qu'elle serait accidentelle ou volontaire ?
Est-il plausible de considérer la suppression accidentelle de preuves comme un événement fortuit, ou cela reflète-t-il un problème structurel dans la gestion interne d’OpenAI ?
Le concept de "fair use" est-il suffisant pour encadrer légalement l’entraînement des modèles d’IA, ou faut-il des lois spécifiques pour ce domaine émergent ?
Si le tribunal statue en faveur du New York Times, quelles pourraient être les répercussions pour d'autres entreprises développant des technologies similaires ?