Difference between revisions of "VT2021 TTS fiche"

From air
Jump to navigation Jump to search
m
Line 2: Line 2:
   
 
'''COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])'''
 
'''COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])'''
  +
  +
== Résumé ==
  +
=== Résumé ===
  +
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.
  +
  +
'''Mots clés :''' TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme
  +
  +
=== Abstract ===
   
 
== Histoire ==
 
== Histoire ==
 
=== Ère mécanique ===
 
=== Ère mécanique ===
Les premières traces de reproduction de l'appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).\
+
Les premières traces de reproduction de l'appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).
 
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de "machine vocale mécanico-acoustique"; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs "machines parlantes" basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine "Euphonia" de Joseph Faber en 1846.
 
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de "machine vocale mécanico-acoustique"; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs "machines parlantes" basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine "Euphonia" de Joseph Faber en 1846.
 
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d'analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).
 
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d'analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).
Line 11: Line 19:
   
 
[[File:Ère_mécanique.PNG|320px*130px]]
 
[[File:Ère_mécanique.PNG|320px*130px]]
  +
  +
=== Ère électronique ===
  +
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.
  +
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c'est d'ailleurs ce système qui est utilisé dans 2001: L'Odyssée de l'Espace (l'ordinateur HAL 9000).

Revision as of 11:45, 13 December 2021

TextToSpeech

COSOTTI Kévin (kevin.cosotti@etu.univ-grenoble-alpes.fr) - GRANGER Oscar (oscar.granger@etu.univ-grenoble-alpes.fr)

Résumé

Résumé

Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.

Mots clés : TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme

Abstract

Histoire

Ère mécanique

Les premières traces de reproduction de l'appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]). Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de "machine vocale mécanico-acoustique"; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs "machines parlantes" basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine "Euphonia" de Joseph Faber en 1846. Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d'analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator). En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.

320px*130px

Ère électronique

Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50. En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c'est d'ailleurs ce système qui est utilisé dans 2001: L'Odyssée de l'Espace (l'ordinateur HAL 9000).