Difference between revisions of "VT2022 XXX fiche"

From air
Jump to navigation Jump to search
Line 12: Line 12:
   
 
=Introduction=
 
=Introduction=
  +
  +
Spleeter est une bibliothèque Python en novembre 2019 permettant de séparer les différentes pistes d’une musique. Par exemple, on a une musique et l’on souhaite séparer la voix et les instruments en fichiers audio comme si on avait enregistré les pistes à part.
   
 
=Acteurs du projet=
 
=Acteurs du projet=

Revision as of 19:37, 11 December 2022

Résumé

Mots-Clés

Spleeter, Intelligence Artificielle, Deep Learning, Séparation de sources, Time-frequency masking

Abstract

Introduction

Spleeter est une bibliothèque Python en novembre 2019 permettant de séparer les différentes pistes d’une musique. Par exemple, on a une musique et l’on souhaite séparer la voix et les instruments en fichiers audio comme si on avait enregistré les pistes à part.

Acteurs du projet

Modèle utilisé

Time-Frequency Masking

Spleeter utilise une technique appelée Time-Frequency Masking (T-F Masking).

Les différentes pistes musicales (ou stems) d'une musique mélangeant plusieurs musiques sont réparties sur tout le spectre des fréquences audibles (20 à 2000 Hz) et chacune de ces pistes correspond à une gamme de fréquences.

C'est-à-dire que les voix, la batterie, les basses, etc. occupent différentes bandes de fréquences.

Ainsi, en utilisant le Time-Frequency Masking, les fréquences qui correspondent à une piste particulière peuvent être filtrées du mélange.

Ainsi, en filtrant chaque piste, nous nous retrouvons dans les pistes séparées de la piste mélangée donnée en entrée.

U-Net

Modèles pré-entraînés proposés

Caractéristiques du modèle

Projets utilisant Spleeter

Avantages et limites

Spleeter est open-source, donc tout le monde peut le modifier en fonction de ce qu’il souhaite en faire. On peut entraîner ses propres modèles si par exemple on fait que du jazz et qu’on souhaite utiliser la bibliothèque que sur des musiques de jazz. Il est également gratuit et disponible pour tous. Il a un traitement des musiques qui est très rapide, ce qui permet d’avoir des résultats très vite, et il permet de séparer en plusieurs modes comme voix et instrument ou alors voix, basse, batterie et autres etc…

Cependant en point négatif on note quand même un très gros problème avec les droits d’auteurs. Car récupérer la piste de la voix ou d’un instrument ne fait pas de nous le propriétaire de celle-ci. Il y a également un manque de perfection dans la retranscription des pistes audio. Il est également nécessaire d’avoir des connaissances en programmation et notamment en python pour pouvoir prendre en main et apporter des modifications dans le projet.

Références