VT2022 XXX fiche

From air

Revision as of 18:01, 11 December 2022 by Etienne.Reygner (talk | contribs) (→‎Projets utilisant Spleeter)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Jump to navigation Jump to search

Résumé

Mots-Clés

Spleeter, Intelligence Artificielle, Deep Learning, Séparation de sources, Time-frequency masking

Abstract

Introduction

Spleeter est une bibliothèque Python en novembre 2019 permettant de séparer les différentes pistes d’une musique. Par exemple, on a une musique et l’on souhaite séparer la voix et les instruments en fichiers audio comme si on avait enregistré les pistes à part.

Acteurs du projet

Spleeter c’est donc un outil open source qui a été développé par Deezer et on l’utilise avec des modèles pré-entraînés écrits en Python. Spleeter utilise également Tensorflow pour réaliser cette tâche. Tensorflow quant à lui est une bibliothèque Python open source d’apprentissage automatique développée par Google.

Modèle utilisé

Time-Frequency Masking

Spleeter utilise une technique appelée Time-Frequency Masking (T-F Masking).

Les différentes pistes musicales (ou stems) d'une musique mélangeant plusieurs musiques sont réparties sur tout le spectre des fréquences audibles (20 à 2000 Hz) et chacune de ces pistes correspond à une gamme de fréquences.

C'est-à-dire que les voix, la batterie, les basses, etc. occupent différentes bandes de fréquences.

Ainsi, en utilisant le Time-Frequency Masking, les fréquences qui correspondent à une piste particulière peuvent être filtrées du mélange.

Ainsi, en filtrant chaque piste, nous nous retrouvons dans les pistes séparées de la piste mélangée donnée en entrée.

U-Net

Modèles pré-entraînés proposés

Caractéristiques du modèle

Projets utilisant Spleeter

Spleeter a trouvé une utilité dans différents projet. Comme par exemple : - iZotope, dans leur fonctionnalité RX 8 qui permet de séparer la voix des musiques pour faire des acapellas. - Steinberg, propose SpectralLayers 7, un outil pour modifier et traiter le spectre audio. - Acon Digital, Acoustica 7 comme SpectralLayers 7 permettant de modifier le spectre audio. - VirtualDJ utilise Spleeter dans leur outil d’isolation des pistes audio. - Algoriddim, propose NeuralMix et djayPRO qui sont des outils pour séparer les pistes audio également.

On voit que Spleeter trouve son utilité dans des logiciels mais également pour des particuliers.

Avantages et limites

Spleeter est open-source, donc tout le monde peut le modifier en fonction de ce qu’il souhaite en faire. On peut entraîner ses propres modèles si par exemple on fait que du jazz et qu’on souhaite utiliser la bibliothèque que sur des musiques de jazz. Il est également gratuit et disponible pour tous. Il a un traitement des musiques qui est très rapide, ce qui permet d’avoir des résultats très vite, et il permet de séparer en plusieurs modes comme voix et instrument ou alors voix, basse, batterie et autres etc…

Cependant en point négatif on note quand même un très gros problème avec les droits d’auteurs. Car récupérer la piste de la voix ou d’un instrument ne fait pas de nous le propriétaire de celle-ci. Il y a également un manque de perfection dans la retranscription des pistes audio. Il est également nécessaire d’avoir des connaissances en programmation et notamment en python pour pouvoir prendre en main et apporter des modifications dans le projet.

Références

Retrieved from "https://air.imag.fr/index.php?title=VT2022_XXX_fiche&oldid=52950"