TextToSpeech

COSOTTI Kévin (kevin.cosotti@etu.univ-grenoble-alpes.fr) - GRANGER Oscar (oscar.granger@etu.univ-grenoble-alpes.fr)

Résumé

Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.

Mots clés : TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme

Abstract

Histoire

Ère mécanique

Les premières traces de reproduction de l'appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]). Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de "machine vocale mécanico-acoustique"; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs "machines parlantes" basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine "Euphonia" de Joseph Faber en 1846. Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d'analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator). En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.

Ère électronique

Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50. En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c'est d'ailleurs ce système qui est utilisé dans 2001: L'Odyssée de l'Espace (l'ordinateur HAL 9000).

VT2021 TTS fiche

Contents

TextToSpeech

Résumé

Résumé

Abstract

Histoire

Ère mécanique

Ère électronique

Navigation menu

Search