Le projet du groupe Sony en matière de technologie de détection de musique par IA est prometteur. Voici sur quoi cela fonctionne…

MBW Reacts est une série de commentaires analytiques de Entreprise de musique dans le monde écrit en réponse à des événements de divertissement ou à des reportages récents majeurs. Seulement Abonnés MBW+ avoir un accès illimité à ces articles.

La semaine dernière, Nikkei Asia signalé que les chercheurs de Sony Le groupe travaillait sur une technologie permettant d'identifier la musique protégée par le droit d'auteur intégrée dans les pistes générées par l'IA.

L’histoire a été largement reprise, la couverture médiatique décrivant le développement comme une sorte d’outil de détection de nouvelle génération qui pourrait aider les auteurs-compositeurs à réclamer une compensation aux développeurs d’IA.

Mais les recherches sous-jacentes plus larges menées par l’équipe de Sony AI semblent aller beaucoup plus loin que ce que suggère ce cadre.

Dans un article de blog publié en décembre, Sony AI a mis en avant trois articles acceptés lors de grandes conférences universitaires en 2025 pour la recherche sur l'IA et l'audio.

La recherche, selon le billet de blog, se concentre sur « l’intégrité musicale à l’ère de l’apprentissage automatique, explorant attribution, reconnaissance et protection » et fait » partie d'un ensemble croissant de travaux explorant comment l'IA peut désapprendre ce qui ne lui appartient pas, comment les connexions entre les segments musicaux peuvent être identifiées et quelle est l'efficacité des méthodes d'authentification audio actuelles. «

Comme nous l'avons noté la semaine dernière, ce travail fait partie des recherches plus larges de Sony AI, et la société n'a annoncé aucun produit ou lancement commercial particulier.

Sony AI, selon sa page À propos, a été créée en avril 2020 en tant que division du géant japonais de la technologie et du divertissement Sony Group pour « poursuivre des recherches révolutionnaires en IA et en robotique afin de libérer l’imagination et la créativité humaines grâce à l’IA ». Sony AI possède des bureaux en Amérique du Nord, en Europe, en Inde et au Japon.

Voici sur quoi travaillent les chercheurs de Sony AI…

1. Attribution : « Désapprentissage » peut retracer quelles chansons ont façonné le résultat d'un modèle d'IA, même si rien ne se ressemble.

Sony IA article de blog introduit le premier défi comme attributionou « comprendre quelles données de formation ont influencé ce qu’un système d’IA crée ».

Comme le dit le blog, « lorsqu'un modèle génératif sans licence compose une nouvelle chanson à partir d'une invite de texte, il n'inclut aucune trace d'attribution. Mais les chercheurs de Sony AI pensent que cela peut toujours être déterminé. »

Le document, intitulé, Attribution de données de formation à grande échelle pour les modèles générateurs de musique via le désapprentissage a été accepté au NeurIPS 2025 Creative AI Track. Il propose une méthode pour identifier les chansons des données d'entraînement d'un modèle d'IA qui ont le plus influencé une sortie générée spécifique. Plutôt que de comparer les pistes générées à un catalogue de musique existante, il fonctionne en « oubliant » sélectivement la piste générée du modèle, puis en mesurant quelles chansons d'entraînement sont les plus affectées par cette suppression.

Pour tester cette approche, les chercheurs l’ont comparée à des méthodes alternatives. La méthode dite de « désapprentissage » a produit des résultats plus précis, avec une influence concentrée sur un petit nombre de pistes de formation, tandis que les méthodes basées sur la similarité ont montré des schémas plus larges et moins ciblés. Lorsqu'il a été utilisé pour identifier une piste d'entraînement connue, le système a obtenu une identification parfaite tandis que la qualité globale du modèle est restée inchangée.

Les auteurs décrivent leur travail comme le premier à explorer l’attribution sur un modèle texte-musique formé sur un ensemble de données vaste et diversifié. Ils le présentent comme un cadre pratique pour appliquer à grande échelle l’attribution basée sur le désapprentissage.

Conclusion: En « désapprenant » une piste générée et en observant les effets d'entraînement, cette méthode peut identifier quelles chansons d'entraînement ont influencé la sortie d'une IA, même si la sortie ne leur ressemble pas visiblement. Comme le note le blog de Sony AI, « en montrant ce qui se passe lorsque les modèles oublient, les chercheurs de Sony AI espèrent aider à reconnaître les œuvres des artistes originaux ».

Lire l'article complet ici

2. Reconnaissance : l'appariement au niveau des segments peut détecter le type d'emprunt que l'IA effectue réellement

Le blog de Sony AI présente le deuxième volet comme reconnaissanceou cartographier « les relations entre les œuvres ».

Comme l'explique le blog : « Deux chansons peuvent ne pas être identiques, mais elles peuvent néanmoins partager une mélodie, un rythme ou un phrasé qui les relie à travers les époques ou les éléments d'un catalogue donné. »

L'article, accepté à l'ICML 2025, présente CLEWS [Supervised Contrastive Learning from Weakly-Labeled Audio Segments for Musical Version Matching]. Le système détecte lorsque deux enregistrements sont des versions différentes du même morceau. L'innovation clé est qu'il fonctionne avec des extraits audio de 20 secondes plutôt qu'avec des pistes entières. Comme le notent les auteurs, les segments qui comptent dans les cas réels sont beaucoup plus courts que la longueur complète de la chanson.

Sur deux benchmarks publics, CLEWS a surpassé toutes les méthodes existantes. Alors que les systèmes concurrents ont constaté de fortes baisses de précision avec des clips audio plus courts, CLEWS a maintenu une précision élevée jusqu'à seulement 10 secondes. Le document répertorie le plagiat et la détection de quasi-doublons parmi ses applications.

Conclusion: CLEWS peut identifier le matériel musical partagé entre les enregistrements au niveau du segment, même dans de courts clips. Comme le dit le blog de Sony AI, ce type de détection fine « pourrait prendre en charge les systèmes de protection des droits d'auteur et de surveillance du contenu, aidant à identifier les quasi-doublons ou les versions non autorisées qui pourraient échapper aux outils de correspondance traditionnels ».

Vous pouvez lire l'article complet ici

3. Protection : le filigrane audio peut-il survivre à la compression AI

Le blog de Sony AI encadre le troisième volet, la protection, autour d'une question directe : « Les méthodes de filigrane existantes peuvent-elles résister aux transformations du monde réel ?

Comme le note le blog : « Alors que la compression audio est de plus en plus alimentée par les réseaux de neurones… les signaux mêmes sur lesquels les systèmes de filigrane s'appuient pour prouver l'authenticité sont effacés. »

L'article, accepté à INTERSPEECH 2025, présente RAW-Bench [Robust Audio Watermarking Benchmark]un framework qui teste la capacité des algorithmes de filigrane à résister à 20 distorsions réelles, notamment la compression, le bruit de fond, la réverbération et l'étirement temporel. Les chercheurs ont testé quatre algorithmes accessibles au public sur un ensemble de données couvrant la musique, la parole et les sons environnementaux.

La principale découverte concerne les codecs audio neuronaux, les outils de compression basés sur l’IA utilisés pour réduire les fichiers audio. Par rapport au codec audio Descript, chaque algorithme de filigrane a obtenu un score de zéro en termes de précision du message complet, ce qui signifie qu'aucun filigrane n'a été entièrement récupéré intact. Même après avoir recyclé deux algorithmes pour résister à ces attaques, les deux n’ont toujours obtenu aucun score sur cette mesure. Certains algorithmes géraient une récupération partielle des bits, mais à des niveaux trop faibles pour être pratiquement utiles.

L’explication est simple : les filigranes masquent les informations contenues dans l’audio, tandis que les codecs neuronaux suppriment tout ce qui est inaudible. Étant donné que les codecs arrivent généralement en dernier dans la chaîne de traitement, ils ont le dernier mot.

Conclusion: Le filigrane audio actuel ne peut pas survivre à la compression alimentée par l’IA. Comme le suggère le blog de Sony AI, « les futurs systèmes de filigrane devront peut-être collaborer avec les codecs plutôt que de lutter contre eux, en intégrant l'identité d'une manière qui persiste à travers la transformation plutôt que d'être filtrée par celle-ci. »

Lisez l’article complet ici.

La situation dans son ensemble

Ensemble, ces trois articles décrivent un cadre technique à plusieurs niveaux : les traces d'attribution influencent au niveau du modèle, la reconnaissance cartographie les relations au niveau des fragments et les tests de filigrane révèlent où les protections actuelles sont insuffisantes.

Sony IA dit que ses chercheurs « contribuent à définir comment équilibrer innovation et responsabilité peut fonctionner dans l’avenir de la musique générative : avec une IA qui se souvient de ses sources, entend ses connexions et sauvegarde son signal ».

Pour l’avenir, les recherches de Sony AI dans ce domaine ne semblent pas ralentir.

Dans un article de blog distinct publié en février, l'unité de recherche sur l'IA de Sony dit plus de 10 articles seront acceptés à l'ICLR 2026, couvrant « la modélisation générative, la diffusion, l'apprentissage de la représentation multimodale et les systèmes d'IA axés sur le créateur ».

Parmi les sujets répertoriés figure « la post-production musicale assistée par l’IA ».Entreprise de musique dans le monde

Latour Eiffel

Le projet du groupe Sony en matière de technologie de détection de musique par IA est prometteur. Voici sur quoi cela fonctionne…

1. Attribution : « Désapprentissage » peut retracer quelles chansons ont façonné le résultat d'un modèle d'IA, même si rien ne se ressemble.

2. Reconnaissance : l'appariement au niveau des segments peut détecter le type d'emprunt que l'IA effectue réellement

3. Protection : le filigrane audio peut-il survivre à la compression AI

La situation dans son ensemble

Plus de 26 jeux de cartes créatifs et captivants pour toutes les salles de classe

Ventes de participations PSU : le centre prendra un appel lorsque les conditions du marché s'amélioreront

Techmeme : CoreWeave affirme avoir signé un accord pluriannuel avec Anthropic, comprenant une variété de puces Nvidia dans des centres de données aux États-Unis ; il compte désormais 43 centres de données actifs (Brody Ford/Bloomberg)

Trump aveuglé par la conférence de presse de Melania