IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Un groupe d'hacktivistes affirme avoir copié la quasi-totalité du catalogue de Spotify, représentant environ 300 To de données.
Spotify dénonce des pirates « extrémistes hostiles aux droits d'auteur »

Le , par Mathis Lucas

5PARTAGES

5  0 
Un groupe d'hacktivistes appelé Anna's Archive déclare avoir récupéré 86 millions de fichiers musicaux sur Spotify et 256 millions de lignes de métadonnées telles que les noms d'artistes et d'albums. En matière d'audience, Anna's Archive a déclaré que cela représente environ 99,6 % de toutes les écoutes sur Spotify. L'ensemble des données pèse un peu moins de 300 To et est distribué via des torrents à grande échelle, classés par popularité. Si ces chiffres sont exacts, il s'agirait de la plus grande base de données de métadonnées musicales accessible au public qui existe à l'heure actuelle. Ce piratage pourrait servir de sources de données pour l'industrie de l'IA.

Anna’s Archive est une plateforme d’archive numérique ou de bibliothèque fantôme (shadow library) créée en 2022 par une personne ou un groupe anonyme identifié(e) comme Anna Archivist. Il se présente comme un moteur de recherche et une bibliothèque en ligne open source, dont l’objectif déclaré est de cataloguer et rendre facilement disponibles des livres, articles scientifiques et autres documents numériques provenant de différentes sources.

La plateforme vient de faire l'une de ses déclarations les plus audacieuses à ce jour : elle a annoncé avoir sauvegardé une partie importante du catalogue de Spotify, y compris les métadonnées et les fichiers musicaux, dans ce qu'elle décrit comme une « archive de conservation » mondiale pour la musique.

Anna’s Archive se concentre généralement sur les livres, les magazines et les articles universitaires, qu'il récupère dans des bibliothèques parallèles, des collections officielles et d'autres sources, et qu'il met à disposition via des torrents. Mais aujourd'hui, le site s'intéresse à la musique, en commençant par Spotify. « Ce scraping de Spotify est notre modeste tentative de créer une telle « archive de préservation » pour la musique », a écrit Anna’s Archive.


« Bien sûr, Spotify ne contient pas toute la musique du monde, mais c'est un excellent début ». Selon l'annonce, Anna’s Archive a découvert il y a quelque temps comment extraire des données à grande échelle sur Spotify et a décidé qu'il était en mesure de créer une archive musicale de conservation.

Que contient cette archive de conversation créée par Anna’s Archive ?

Anna’s Archive affirme avoir archivé les métadonnées d'environ 256 millions de titres et les fichiers audio d'environ 86 millions de chansons. Selon la plateforme, cela représente environ 99,6 % de toutes les écoutes sur Spotify. L'ensemble des titres pèse un peu moins de 300 To et est distribué via des torrents, classés par popularité. Spotify, qui héberge plus de 100 millions de titres, a déclaré que la fuite ne concerne pas l'intégralité de son catalogue.

Les morceaux dont la popularité est mesurable ont été stockés dans le format OGG Vorbis 160 kb/s original de Spotify, tandis que les morceaux moins écoutés ont été réencodés dans des fichiers OGG Opus plus petits à 75 kb/s afin de réduire les besoins en stockage. Les archives hiérarchisent le contenu à l'aide de l'indicateur de « popularité » interne de Spotify, et les documents publiés après juillet 2025 peuvent être manquants ou incomplets.

Anna’s Archive souligne également l'ampleur de sa collection de métadonnées, précisant qu'elle comprend 186 millions d'ISRC uniques, bien plus que les bases de données publiques existantes telles que MusicBrainz. À l'heure actuelle, seules les métadonnées ont été entièrement publiées. Les fichiers musicaux sont distribués progressivement, en commençant par les morceaux les plus populaires. D'autres éléments sont prévus pour les étapes ultérieures.

Quelles sont les motivations du groupe de pirates Anna’s Archive ?

Ce site, qui a vu le jour il y a seulement trois ans, est déjà l'une des plateformes de piratage les plus ciblées en ligne, les détenteurs de droits ayant émis des centaines de millions de demandes de retrait à son encontre. Malgré cela, il est resté accessible via des miroirs et des domaines alternatifs. Traditionnellement axé sur les documents textuels, Anna's Archive affirme que les livres et les articles offrent la plus grande densité d'informations à préserver.

Mais le groupe affirme que sa mission plus large consiste à préserver les connaissances et la culture de l'humanité sur tous les types de supports. Ce projet a vu le jour après qu'il a découvert un moyen de récupérer les données de Spotify à grande échelle. « Avec votre aide, le patrimoine musical de l'humanité sera à jamais protégé contre la destruction causée par les catastrophes naturelles, les guerres, les coupes budgétaires et d'autres catastrophes ».

Dans son annonce, Anna’s Archive affirme que si la musique semble bien préservée grâce aux CD, aux ripages de vinyles et aux communautés privées de torrent, les efforts actuels ont tendance à privilégier les artistes les plus populaires et les formats de très haute qualité. Selon Anna's Archive, cette approche augmente les besoins en stockage et laisse la musique moins connue ou peu demandée mal partagée ou exposée au risque de disparition.

Une fuite massive qui pourrait servir les intérêts de l'industrie de l'IA

Selon certains observateurs, cette fuite pourrait donner un coup de pouce aux entreprises spécialisées dans l'IA qui recherchent des matériaux pour développer leur technologie. Ed Newton-Rex, compositeur et militant pour la protection des droits d'auteur des artistes, explique que la musique divulguée serait probablement utilisée pour développer des modèles d'IA. Les entreprises d'IA sont confrontées à la raréfaction des sources de données qualitatives.


« L'entraînement sur du matériel piraté est malheureusement courant dans l'industrie de l'IA, il est donc presque certain que cette musique volée finira par servir à entraîner des modèles d'IA. C'est pourquoi les gouvernements doivent insister pour que les entreprises d'IA divulguent les données d'entraînement qu'elles utilisent », a déclaré Ed Newton-Rex. Meta et Anthropic font face à des poursuites pour avoir entraîné leurs IA sur des livres piratés.

Le droit d'auteur est devenu un champ de bataille entre les artistes et les auteurs d'un côté, et les entreprises d'IA de l'autre. Les outils d'IA et les générateurs de musique sont entraînés à partir d'énormes quantités de données provenant du Web ouvert, y compris des œuvres protégées par le droit d'auteur.

Le site Anna's Archive fait référence à LibGen, une vaste archive en ligne de livres piratés qui aurait été utilisée par Meta, l'entreprise de Mark Zuckerberg, pour former ses modèles d'IA. Selon des documents judiciaires, Mark Zuckerberg, PDG de Meta, a approuvé l'utilisation de LibGen malgré les avertissements de l'équipe juridique, qui a alerté sur le fait qu'il s'agissait d'un ensemble de données qui contient essentiellement des « documents piratés ».

Meta a réussi à se défendre contre une plainte pour violation du droit d'auteur déposée par des auteurs, mais les plaignants dans cette affaire cherchent à modifier leur plainte. Les critiques ont également déclaré que les membres du public pourraient en théorie « créer leur propre version gratuite de Spotify ». Cela pourrait également permettre aux entreprises spécialisées dans l'IA de « s'entraîner gratuitement à grande échelle sur la musique moderne ».

Spotify réagit au piratage massif de sa plateforme et ouvre une enquête

Spotify a reconnu la situation et a déclaré à Android Authority qu'il enquête pour déterminer si Anna's Archive avait réellement récupéré des données à grande échelle sur sa plateforme. « Une enquête sur un accès non autorisé a révélé qu'un tiers avait récupéré des métadonnées publiques et utilisé des tactiques illicites pour contourner la DRM afin d'accéder à certains fichiers audio de notre plateforme. Nous enquêtons activement sur cet incident ».

On ne sait pas exactement la quantité de données de Spotify récupérée ni si la société envisage d'intenter une action en justice pour faire supprimer les torrents. Interrogé à ce sujet, un porte-parole de Spotify a déclaré à Ars que « Spotify a identifié et désactivé les comptes d'utilisateurs malveillants qui se sont livrés à des pratiques illégales de récupération de données ». La société a déclaré avoir mis en place des mesures ce type d'attaque.

« Nous avons mis en place de nouvelles mesures de protection contre ce type d'attaques anti-copyright et surveillons activement tout comportement suspect », a déclaré un porte-parole de Spotify à Ars. « Depuis le premier jour, nous nous sommes engagés aux côtés de la communauté artistique contre le piratage, et nous travaillons activement avec nos partenaires industriels pour protéger les créateurs et défendre leurs droits ».

Spotify a assimilé les hacktivistes à « des extrémistes anti-droit d'auteur qui ont déjà piraté du contenu sur YouTube et d'autres plateformes ». La déclaration de Spotify ne confirme pas l'ampleur du scraping décrit par Anna's Archive. Alors que la plateforme affirme que seuls « certains » de ses fichiers audio ont été consultés, Anna's Archive prétend avoir pu archiver 99,6 % de toutes les écoutes sur Spotify. Ce qui suscite beaucoup d'intérêts.

Les utilisateurs d'Anna’s Archive craignent les conséquences de ce piratage

Bien qu'Anna's Archive présente ce projet comme une initiative de préservation...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 23/12/2025 à 14:32
Ce piratage pourrait servir de sources de données pour l'industrie de l'IA.
Ou comment être en retard d'une guerre... C'est un peu comme Macron qui annonce vouloir construire un nouveau porte-avion pour des milliards d'euro alors que les ukrainiens ont prouvé que ce genre de navire peut être coulé à l'aide de quelques drones coûtant au total quelques milliers d'euro

Il faut pas que Spotify en fasse tout un fromage...

Avant les hackers, toutes les IA du moment se sont déjà servies dans leur catalogue... Alors leur plainte fait un peu penser à la dame de petite vertu qui se plaint d'être victime d'une main aux fesses après avoir vendu ses charmes à tout un régiment...

Il y a un moment où le monde du numérique va devoir se remettre en question...
3  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 23/12/2025 à 16:00
En effet c'est un peu la dernière carte à jouer.

C'est intéréssant ça soulève le concept de propriété intellectuelle dans un environnement ou la copie est l'essence même du fonctionnement. C'est proprement impossible à faire respecter.
1  0 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 23/12/2025 à 17:19
Honnêtement, les entreprises d'IA n'ont pas eu besoin de ça pour améliorer et entrainer leur modèles depuis plusieurs années.

Enfin, le droit d'auteur actuel est un abus anormal, je ne vais pas verser une larme pour eux :
- Les "ayants-tout-les-droits" se permettent de traquer les "pirates" avec de l'argent publique.
- Ils ont déjà des réductions de taxes et aides fiscales en tout genre.
- Ils jouissent de système de signalement avantageux (inaccessible pour les simples citoyens).
- Ils ont des privilèges policiers/juridiques.
1  0 
Avatar de blbird
Membre chevronné https://www.developpez.com
Le 23/12/2025 à 20:24
Citation Envoyé par Artaeus Voir le message
Honnêtement, les entreprises d'IA n'ont pas eu besoin de ça pour améliorer et entrainer leur modèles depuis plusieurs années.

Enfin, le droit d'auteur actuel est un abus anormal, je ne vais pas verser une larme pour eux :
- Les "ayants-tout-les-droits" se permettent de traquer les "pirates" avec de l'argent publique.
- Ils ont déjà des réductions de taxes et aides fiscales en tout genre.
- Ils jouissent de système de signalement avantageux (inaccessible pour les simples citoyens).
- Ils ont des privilèges policiers/juridiques.
Et surtout le droit d'auteur musical est je crois jusqu'à 80 ans, ce qui est complètement abusé.
1  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 23/12/2025 à 18:23
« Seulement » 37 % du répertoire de la plateforme de streaming ont été téléchargés. Même si ces 37% représentent bien 99.6% des écoutes sur Spotifiy, on est loin de l'intégralité du catalogue. Enfin dans tous les cas, 300To ça commence à faire !

Sources :
https://next.ink/215903/annas-archiv...A9charg%C3%A9s
https://fr.annas-archive.org/blog/ba...20of%20listens
0  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 23/12/2025 à 20:50
Citation Envoyé par blbird Voir le message
Et surtout le droit d'auteur musical est je crois jusqu'à 80 ans, ce qui est complètement abusé.
En Europe, c'est jusqu'à 70 après le décès de l'auteur. C'est beaucoup, et trop pour laisser la culture populaire comme les compositeurs de musique "savante" s'inspirer librement des musiques les plus célèbres, ce qui régénère en permanence une culture musicale commercial, tout en sapant toute culture populaire ou, à l'inverse, savante.
0  0