Lors d'une audience au tribunal mardi, les avocats de Microsoft et OpenAI ont défendu la pratique des entreprises technologiques consistant à « collecter » d'énormes quantités d'articles de presse en ligne pour entraîner les grands modèles de langage utilisés par leurs chatbots, et ont exhorté un juge fédéral à rejeter diverses plaintes pour violation du droit d'auteur déposées par le New York Times, le New York Daily News et d'autres organismes de presse.
En réponse aux allégations des éditeurs selon lesquelles OpenAI et les systèmes d'IA générative de Microsoft ont illégalement copié le contenu de leurs journaux et régurgité ce contenu en réponse aux invites des utilisateurs de chatbots, les avocats des sociétés ont fait valoir que certaines plaintes pour violation des droits d'auteur fondées sur la création et l'utilisation par OpenAI d'ensembles de données d'entraînement pour GPT-2 et GPT-3 devraient être rejetées parce qu'elles sont prescrites, en vertu de la loi sur la prescription en matière de droits d'auteur.
Lors des plaidoiries mardi, Andrew Gass, avocat chez Latham & Watkins, a déclaré que le New York Times avait attendu plus de trois ans après la publication par OpenAI d'articles révélant que l'article figurait parmi les modèles d'entraînement de ChatGPT avant d'intenter une action en justice pour violation des droits d'auteur.
Gass a indiqué que la plainte du Times a été déposée plus de trois ans après la publication par le journal d'un article sur la technologie révolutionnaire d'OpenAI en matière d'IA générative.
OpenAI s'appuie sur la doctrine américaine de « l'usage loyal » pour justifier la collecte
OpenAI a fait valoir que la grande quantité de données utilisées pour entraîner son robot d'intelligence artificielle était protégée par les règles de « l'usage loyal ». Il s'agit d'une doctrine du droit américain qui autorise l'utilisation de matériel protégé par le droit d'auteur à des fins éducatives, de recherche ou de commentaire. Pour satisfaire au critère de l'usage loyal, l'œuvre en question doit avoir transformé l'œuvre protégée en quelque chose de nouveau, et la nouvelle œuvre ne peut pas concurrencer l'originale sur le même marché, entre autres facteurs.
Pour démontrer que leur utilisation du texte est transformatrice, l'équipe juridique d'OpenAI et de Microsoft a expliqué au juge Sidney Stein, nommé par le président Bill Clinton, comment fonctionnent les grands modèles de langage, comme ChatGPT.
Les avocats des deux sociétés ont expliqué que lorsque les modèles d'intelligence artificielle d'OpenAI sont alimentés en données, celles-ci sont ensuite triées en une série de « tokens », des unités qui rendent l'analyse des données plus facile à gérer. À terme, le modèle peut reconnaître des schémas.
Pour OpenAI, c'est le NYT qui a poussé ChatGPT a republier ses articles, après avoir fait de nombreuses requêtes
Néanmoins, l'audience de mardi a porté sur des réclamations accessoires en dehors de la question centrale de savoir si l'utilisation de contenus protégés par le droit d'auteur pour entraîner un modèle d'intelligence artificielle générative constitue un usage loyal en vertu de la loi sur le droit d'auteur.
OpenAI et Microsoft ont déposé des requêtes pour rejeter les plaintes, arguant de multiples défenses, notamment que les éditeurs n'ont pas déclaré que les développeurs d'IA ont contribué à la « violation du droit d'auteur par l'utilisateur final », ou qu'ils ont encouragé les utilisateurs à inciter les produits basés sur la technologie GPT à produire un contenu similaire aux articles des éditeurs.
Joseph Gratz, avocat d'OpenAI, a déclaré que ChatGPT disposait de garde-fous pour empêcher la copie en gros d'articles de presse en réponse aux demandes des utilisateurs. Il a expliqué que régurgiter des articles entiers « n'est pas ce pour quoi il a été conçu et ce qu'il fait » en ce qui concerne le fonctionnement de ChatGPT. « Il ne s'agit pas d'un système de recherche de documents. Il s'agit d'un mode de langage étendu », a déclaré Gratz.
Gratz a affirmé que les exemples d'infraction cités par le Times dans l'action en justice n'ont pu se produire qu'après des « milliers, voire des dizaines de milliers » de requêtes. En substance, Gratz a affirmé que les éditeurs avaient préparé le chatbot à régurgiter du texte extrait des sites web des éditeurs.
L'avocat du New York Times, Ian Crosby, a prévenu que les conséquences prévues des dommages causés par l'IA générative aux éditeurs de presse étaient « désastreuses », 30 à 50 % du trafic d'information en ligne étant détourné et ne retournant pas aux sources originales des articles.
Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge
NYT : « Nous devons suivre les données »
L'audience de mardi s'est concentrée sur la motion de rejet d'OpenAI, une étape critique dans l'affaire, au cours de laquelle le juge peut soit autoriser le procès, soit le rejeter.
L'argument principal des éditeurs est que les données qui alimentent ChatGPT ont inclus des millions d'œuvres protégées par le droit d'auteur des organes de presse, des articles qui, selon les organes de presse, ont été utilisés sans consentement ni paiement (ce qui, selon les éditeurs, équivaut à une violation du droit d'auteur à grande échelle).
« Nous devons suivre les données », a déclaré l'avocate du Times, Jennifer Maisel, devant le tribunal mardi. Et si l'on suit les données, a fait valoir l'équipe juridique des éditeurs, ChatGPT et Microsoft profitent du travail journalistique qui a été scanné, traité et recréé sans paiement ni consentement. Microsoft a intégré la technologie OpenAI dans son moteur de recherche Bing.
« Il s'agit d'une substitution », a déclaré Ian Crosby, avocat du Times, ce qui signifie que ChatGPT et Bing sont devenus, pour certaines personnes, un substitut au travail original des éditeurs. Ce point, s'il est prouvé, est essentiel pour gagner un procès pour violation du droit d'auteur.
Dans les documents de procédure, Crosby a précisé que « l'utilisation illégale par OpenAI du travail du Times pour créer des produits d'intelligence artificielle qui lui font concurrence menace la capacité du Times à fournir ce service ». « L'utilisation de la précieuse propriété intellectuelle d'autrui de cette manière, sans payer, a été extrêmement lucrative pour OpenAI », a-t-il poursuivi.
Microsoft déclare que le Times utilise sa « puissance et son mégaphone » pour contester une technologie menaçante
Dans leur requête en irrecevabilité, les avocats de Microsoft, principal investisseur d'OpenAI, ont écrit qu'il n'était pas illégal pour OpenAI d'ingérer ce texte journalistique.
« Dans cette affaire, le New York Times utilise sa puissance et son mégaphone pour contester la dernière avancée technologique en date : le Large Language Model (LLM) », ont-ils écrit dans leur requête, décrivant la technologie qui sous-tend le ChatGPT. « Malgré les affirmations du Times, la loi sur le droit d'auteur n'est pas plus un obstacle au LLM qu'elle ne l'était au magnétoscope (ou au piano mécanique, à la photocopieuse, à l'ordinateur personnel, à l'Internet ou au moteur de recherche) ».
Mais les organismes de presse font valoir que non seulement le succès mondial de ChatGPT repose en partie sur l'aspiration d'une foule d'articles protégés par le droit d'auteur, mais que ChatGPT est désormais un concurrent efficace en tant que source d'information fiable.
C'est ce qu'a fait valoir le tribunal mardi, alors qu'un autre aspect du fonctionnement de ChatGPT a fait l'objet d'un débat. Il s'agit de la « génération augmentée de recherche ». En clair : Il intègre des informations actualisées et plus spécifiques provenant du web dans les réponses du chatbot.
Bien que certaines de ces informations, comme de grandes parties d'articles de presse, n'aient pas fait partie des données d'apprentissage du chatbot, elles peuvent tout de même apparaître dans les résultats de ChatGPT.
Steven Lieberman, avocat du New York Daily News, a déclaré : « Cela permet de faire du parasitisme », en référence aux lecteurs qui se tournent vers les recréations OpenAI d'articles de journaux plutôt que de se rendre sur le site web d'un éditeur.
Que pourrait-il se passer ensuite ?
Selon la plainte déposée par le Times, OpenAI devrait être condamné à des milliards de dollars de dommages et intérêts pour avoir illégalement copié et utilisé les archives du journal. La plainte demande également la destruction de l'ensemble des données de ChatGPT.
Il s'agirait là d'une décision radicale. Si les éditeurs obtiennent gain de cause et qu'un juge fédéral ordonne la destruction de l'ensemble de données, l'entreprise pourrait être complètement déstabilisée, car cela obligerait OpenAI à recréer son ensemble de données en se basant uniquement sur les œuvres qu'elle a été autorisée à utiliser.
La loi fédérale sur le droit d'auteur prévoit également de lourdes sanctions financières, les contrevenants étant passibles d'amendes pouvant aller jusqu'à 150 000 dollars pour chaque infraction « commise délibérément ».
Bien qu'il n'ait pas rendu de décision mardi, le juge Stein a indiqué qu'il se prononcerait bientôt sur la poursuite ou le rejet de l'affaire contre OpenAI. Le New York Times a déposé une première plainte fédérale en décembre 2023 contre OpenAI et Microsoft afin de mettre fin à la pratique consistant à utiliser ses articles pour entraîner leurs chatbots respectifs, ChatGPT et Microsoft Copilot, anciennement connu sous le nom de Bing Chat.
Sources : doctrine de « l'usage loyal », documents judiciaires
Et vous ?
L’utilisation équitable (fair use) peut-elle être adaptée à l’entraînement des modèles d’IA ou nécessite-t-elle une redéfinition dans un cadre légal plus strict ?
Les entreprises d’IA devraient-elles rémunérer les créateurs de contenu dont les données sont utilisées pour entraîner leurs modèles ? Si oui, comment définir une rémunération équitable ?
Les outils d’IA comme ChatGPT sont-ils réellement une menace pour les revenus des médias traditionnels, ou bien peuvent-ils être perçus comme des opportunités pour atteindre un public plus large ?
Si les médias réclament une compensation, quels types de contenus devraient être protégés en priorité (articles d’actualité, analyses, archives historiques, etc.) ?
Cette affaire pourrait-elle établir un précédent mondial sur les relations entre IA et droit d’auteur, ou bien les réponses resteront-elles spécifiques à chaque juridiction ?
Comment imaginer une collaboration positive et mutuellement bénéfique entre les médias et les entreprises d’IA ?