GitHub aurait réglé son assistant de programmation Copilot pour générer de légères variations du code de formation ingéré afin d'empêcher que la sortie ne soit signalée comme une copie directe du logiciel sous licence. Cette affirmation est apparue jeudi dans la plainte modifiée contre Microsoft, GitHub et OpenAI concernant le penchant documenté de Copilot pour la reproduction du code sous licence open source publié publiquement par les développeurs.Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.
GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.
Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.
Une plainte est lancée contre Microsoft, GitHub et OpenAI
Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également recracher des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.
L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».
GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »
Selon Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.
Aussi, il s'est associé à des avocats plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot en novembre.
La plainte, déposée au nom de quatre plaignants non identifiés ("X"
Microsoft, GitHub et OpenAI ont tenté en vain de faire rejeter l'affaire
Microsoft, GitHub et OpenAI ont tenté de faire...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?