VT2021 TTS fiche

= TextToSpeech =

COSOTTI Kévin (kevin.cosotti@etu.univ-grenoble-alpes.fr) - GRANGER Oscar (oscar.granger@etu.univ-grenoble-alpes.fr)

Résumé
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.

Mots clés : TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme

Ère mécanique
Les premières traces de reproduction de l'appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]). Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de "machine vocale mécanico-acoustique"; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs "machines parlantes" basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine "Euphonia" de Joseph Faber en 1846. Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d'analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator). En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.



Ère électronique
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50. En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c'est d'ailleurs ce système qui est utilisé dans 2001: L'Odyssée de l'Espace (l'ordinateur HAL 9000).

Synthèse vocale
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.

-Synthèse par concaténation

-Synthèse par Formant

-Deep Learning

Synthèse par concaténation
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant) Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains. Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.

Synthèse par formant
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.

Deep learning
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l'entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l'entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.