Annas Archive est une plateforme darchive numérique ou de bibliothèque fantôme (shadow library) créée en 2022 par une personne ou un groupe anonyme identifié(e) comme Anna Archivist. Il se présente comme un moteur de recherche et une bibliothèque en ligne open source, dont lobjectif déclaré est de cataloguer et rendre facilement disponibles des livres, articles scientifiques et autres documents numériques provenant de différentes sources.
La plateforme vient de faire l'une de ses déclarations les plus audacieuses à ce jour : elle a annoncé avoir sauvegardé une partie importante du catalogue de Spotify, y compris les métadonnées et les fichiers musicaux, dans ce qu'elle décrit comme une « archive de conservation » mondiale pour la musique.
Annas Archive se concentre généralement sur les livres, les magazines et les articles universitaires, qu'il récupère dans des bibliothèques parallèles, des collections officielles et d'autres sources, et qu'il met à disposition via des torrents. Mais aujourd'hui, le site s'intéresse à la musique, en commençant par Spotify. « Ce scraping de Spotify est notre modeste tentative de créer une telle « archive de préservation » pour la musique », a écrit Annas Archive.
« Bien sûr, Spotify ne contient pas toute la musique du monde, mais c'est un excellent début ». Selon l'annonce, Annas Archive a découvert il y a quelque temps comment extraire des données à grande échelle sur Spotify et a décidé qu'il était en mesure de créer une archive musicale de conservation.
Que contient cette archive de conversation créée par Annas Archive ?
Annas Archive affirme avoir archivé les métadonnées d'environ 256 millions de titres et les fichiers audio d'environ 86 millions de chansons. Selon la plateforme, cela représente environ 99,6 % de toutes les écoutes sur Spotify. L'ensemble des titres pèse un peu moins de 300 To et est distribué via des torrents, classés par popularité. Spotify, qui héberge plus de 100 millions de titres, a déclaré que la fuite ne concerne pas l'intégralité de son catalogue.
Les morceaux dont la popularité est mesurable ont été stockés dans le format OGG Vorbis 160 kb/s original de Spotify, tandis que les morceaux moins écoutés ont été réencodés dans des fichiers OGG Opus plus petits à 75 kb/s afin de réduire les besoins en stockage. Les archives hiérarchisent le contenu à l'aide de l'indicateur de « popularité » interne de Spotify, et les documents publiés après juillet 2025 peuvent être manquants ou incomplets.
Annas Archive souligne également l'ampleur de sa collection de métadonnées, précisant qu'elle comprend 186 millions d'ISRC uniques, bien plus que les bases de données publiques existantes telles que MusicBrainz. À l'heure actuelle, seules les métadonnées ont été entièrement publiées. Les fichiers musicaux sont distribués progressivement, en commençant par les morceaux les plus populaires. D'autres éléments sont prévus pour les étapes ultérieures.
Quelles sont les motivations du groupe de pirates Annas Archive ?
Ce site, qui a vu le jour il y a seulement trois ans, est déjà l'une des plateformes de piratage les plus ciblées en ligne, les détenteurs de droits ayant émis des centaines de millions de demandes de retrait à son encontre. Malgré cela, il est resté accessible via des miroirs et des domaines alternatifs. Traditionnellement axé sur les documents textuels, Anna's Archive affirme que les livres et les articles offrent la plus grande densité d'informations à préserver.
Mais le groupe affirme que sa mission plus large consiste à préserver les connaissances et la culture de l'humanité sur tous les types de supports. Ce projet a vu le jour après qu'il a découvert un moyen de récupérer les données de Spotify à grande échelle. « Avec votre aide, le patrimoine musical de l'humanité sera à jamais protégé contre la destruction causée par les catastrophes naturelles, les guerres, les coupes budgétaires et d'autres catastrophes ».
Dans son annonce, Annas Archive affirme que si la musique semble bien préservée grâce aux CD, aux ripages de vinyles et aux communautés privées de torrent, les efforts actuels ont tendance à privilégier les artistes les plus populaires et les formats de très haute qualité. Selon Anna's Archive, cette approche augmente les besoins en stockage et laisse la musique moins connue ou peu demandée mal partagée ou exposée au risque de disparition.
Une fuite massive qui pourrait servir les intérêts de l'industrie de l'IA
Selon certains observateurs, cette fuite pourrait donner un coup de pouce aux entreprises spécialisées dans l'IA qui recherchent des matériaux pour développer leur technologie. Ed Newton-Rex, compositeur et militant pour la protection des droits d'auteur des artistes, explique que la musique divulguée serait probablement utilisée pour développer des modèles d'IA. Les entreprises d'IA sont confrontées à la raréfaction des sources de données qualitatives.
« L'entraînement sur du matériel piraté est malheureusement courant dans l'industrie de l'IA, il est donc presque certain que cette musique volée finira par servir à entraîner des modèles d'IA. C'est pourquoi les gouvernements doivent insister pour que les entreprises d'IA divulguent les données d'entraînement qu'elles utilisent », a déclaré Ed Newton-Rex. Meta et Anthropic font face à des poursuites pour avoir entraîné leurs IA sur des livres piratés.
Le droit d'auteur est devenu un champ de bataille entre les artistes et les auteurs d'un côté, et les entreprises d'IA de l'autre. Les outils d'IA et les générateurs de musique sont entraînés à partir d'énormes quantités de données provenant du Web ouvert, y compris des uvres protégées par le droit d'auteur.
Le site Anna's Archive fait référence à LibGen, une vaste archive en ligne de livres piratés qui aurait été utilisée par Meta, l'entreprise de Mark Zuckerberg, pour former ses modèles d'IA. Selon des documents judiciaires, Mark Zuckerberg, PDG de Meta, a approuvé l'utilisation de LibGen malgré les avertissements de l'équipe juridique, qui a alerté sur le fait qu'il s'agissait d'un ensemble de données qui contient essentiellement des « documents piratés ».
Meta a réussi à se défendre contre une plainte pour violation du droit d'auteur déposée par des auteurs, mais les plaignants dans cette affaire cherchent à modifier leur plainte. Les critiques ont également déclaré que les membres du public pourraient en théorie « créer leur propre version gratuite de Spotify ». Cela pourrait également permettre aux entreprises spécialisées dans l'IA de « s'entraîner gratuitement à grande échelle sur la musique moderne ».
Spotify réagit au piratage massif de sa plateforme et ouvre une enquête
Spotify a reconnu la situation et a déclaré à Android Authority qu'il enquête pour déterminer si Anna's Archive avait réellement récupéré des données à grande échelle sur sa plateforme. « Une enquête sur un accès non autorisé a révélé qu'un tiers avait récupéré des métadonnées publiques et utilisé des tactiques illicites pour contourner la DRM afin d'accéder à certains fichiers audio de notre plateforme. Nous enquêtons activement sur cet incident ».
On ne sait pas exactement la quantité de données de Spotify récupérée ni si la société envisage d'intenter une action en justice pour faire supprimer les torrents. Interrogé à ce sujet, un porte-parole de Spotify a déclaré à Ars que « Spotify a identifié et désactivé les comptes d'utilisateurs malveillants qui se sont livrés à des pratiques illégales de récupération de données ». La société a déclaré avoir mis en place des mesures ce type d'attaque.
« Nous avons mis en place de nouvelles mesures de protection contre ce type d'attaques anti-copyright et surveillons activement tout comportement suspect », a déclaré un porte-parole de Spotify à Ars. « Depuis le premier jour, nous nous sommes engagés aux côtés de la communauté artistique contre le piratage, et nous travaillons activement avec nos partenaires industriels pour protéger les créateurs et défendre leurs droits ».
La déclaration de Spotify ne confirme pas l'ampleur du scraping décrit par Anna's Archive. Alors que la plateforme affirme que seuls « certains » de ses fichiers audio ont été consultés, Anna's Archive prétend avoir pu archiver 99,6 % de toutes les écoutes sur Spotify. Ce qui suscite beaucoup d'intérêts.
Les utilisateurs d'Annas Archive craignent les conséquences de ce piratage
Bien qu'Anna's Archive présente ce projet comme une initiative de préservation culturelle, sa légalité est très...
