<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://air.imag.fr/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Kevin.Cosotti</id>
	<title>air - User contributions [en]</title>
	<link rel="self" type="application/atom+xml" href="https://air.imag.fr/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Kevin.Cosotti"/>
	<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php/Special:Contributions/Kevin.Cosotti"/>
	<updated>2026-05-31T11:49:40Z</updated>
	<subtitle>User contributions</subtitle>
	<generator>MediaWiki 1.39.17</generator>
	<entry>
		<id>https://air.imag.fr/index.php?title=File:VT2021_TTS_presentation.pdf&amp;diff=51746</id>
		<title>File:VT2021 TTS presentation.pdf</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=File:VT2021_TTS_presentation.pdf&amp;diff=51746"/>
		<updated>2021-12-13T14:45:21Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021&amp;diff=51745</id>
		<title>VT2021</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021&amp;diff=51745"/>
		<updated>2021-12-13T14:44:18Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[VT2020|&amp;lt;&amp;lt; Etudes 2020]] [[VT|Sommaire]] [[VT2022|Etudes 2022 &amp;gt;&amp;gt;]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=Veille Technologique et Stratégique=&lt;br /&gt;
* Enseignants: [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
* UE/Module: EAM (HPRJ9R6B) et EAR (HPRJ9R4B) en 1FO5&lt;br /&gt;
&lt;br /&gt;
L&#039;objectif de cette UE est de réaliser un travail de synthèse et d’évaluation sur une technologie / spécification / tendance&lt;br /&gt;
&lt;br /&gt;
Dans votre futur vie d&#039;ingénieur, vous aurez à d&#039;une part, vous former par vous-même sur une technologie émergente et d&#039;autre part à réaliser une veille technologique (et stratégique) par rapport à votre entreprise et projet.&lt;br /&gt;
Il s&#039;agira de réaliser&lt;br /&gt;
* le positionnement par rapport au marché&lt;br /&gt;
* d&#039;être critique&lt;br /&gt;
&lt;br /&gt;
Votre synthèse fait l&#039;objet d&#039;une présentation orale convaincante devant un auditoire (dans le futur, vos collègues, vos chefs ou vos clients) avec des transparents et un discours répété.&lt;br /&gt;
Pour finir de convaincre (Saint Thomas), vous ferez la présentation d&#039;une démonstration.&lt;br /&gt;
&lt;br /&gt;
Votre présentation sera notée et commentée par tous vos camarades via un sondage (téléphone mobile). Leurs notes et leurs commentaires seront notés en fonction de leur exactitude de jugement.&lt;br /&gt;
&lt;br /&gt;
Remarque: Le [https://fr.wikipedia.org/wiki/Plagiat plagiat] est incompatible avec l&#039;éthique de l&#039;ingénieur. Le directeur d&#039;école peut demander votre traduction devant la commission disciplinaire de l&#039;université. La sanction peut aller jusqu’à une interdiction d&#039;inscription dans les établissements de l&#039;enseignement supérieur français pendant plusieurs années : Le jeu en vaut-il la chandelle ?&lt;br /&gt;
&lt;br /&gt;
La présentation peut être réalisée avec [[reveal.js]] ou avec [[remarkjs]]&lt;br /&gt;
&lt;br /&gt;
[[File:presentation-VT-INFO5-2122.pdf|transparents d&#039;introduction à l&#039;UE]]&lt;br /&gt;
&lt;br /&gt;
=Planning=&lt;br /&gt;
&lt;br /&gt;
== Séance 1 : 15/11 ==&lt;br /&gt;
exceptionnellement en distanciel [https://univ-grenoble-alpes-fr.zoom.us/j/98434116324?pwd=NmJHVFZvQm9LQWtYclF3U09QVjZVQT09]&lt;br /&gt;
Enseignants :[[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
Présentation et organisation.&lt;br /&gt;
&lt;br /&gt;
== Séance 2 : 22/11 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Bio-inspired algoritms, BAUDEUR Bertrand, TONDEUX Emilie, [[File:VT2021_BioInspiredAlgo_presentation.pdf|présentation]], [[VT2021_BioInspiredAlgo_fiche|fiche]], [[VT2021_BioInspiredAlgo_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Le langage Zig, PARA	Yaël, MALOD	Victor, [[File:VT2021_Zig_presentation.pdf|présentation]], [[VT2021_Zig_fiche|fiche]], [[VT2021_Zig_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* GitHub Copilot, BLANQUET	Antoine, PRAT CAPILLA	Hugo, [[File:VT2021_GitHubCopilot_presentation.pdf|présentation]], [[VT2021_GitHubCopilot_fiche|fiche]], [[VT2021_GitHubCopilot_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 3 : 29/11 ==&lt;br /&gt;
Enseignants : [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Cloud Hypervisor, CHALOYARD	Lucas, EL YANDOUZI	Elias, [[File:Cloud Hypervisor.pdf|présentation]], [[VT2021_Cloud-Hypervisor_Fiche|fiche]], [https://www.youtube.com/watch?v=UsMEkOlImgw Démo à 26:30], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Kind, GITTON	Antoine, MINIER MANCINI	Titouan, [[File:VT2021_Kind_presentation.pdf|présentation]], [[VT2021_Kind_fiche|fiche]], [[VT2021_Kind_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Apache Workflow, JULIENNE	Malone, CAMBUS	Quentin, [[File:VT2021_ApacheAirflow_presentation.pdf|présentation]], [[VT2021_ApacheAirflow_fiche|fiche]], [[VT2021_ApacheAirflow_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 4 : 6/12 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Content Delivery Networks (CDN), REGOUIN	Roman, ANDRIEUX	Liam, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_CDN_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Netflix Cosmos, HERQUE	Eric, VACHERIAS	Guillaume, [[File:VT2021_Netflix_Cosmos_presentation.pdf|présentation]], [[VT2021_Netflix_Cosmos_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Web Browser Fingerprinting, LANQUETIN	Alexis, GONZALEZ	Jules, [[File:Web Browser FingerPrint.pdf|présentation]], [[VT2021_fingerprinting|fiche]], [[demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Vie privée et objets connectés, Mertens	Gilles, Soulard	Alexandre, [[File:VT2021_vie_privee_et_objets_connectes_presentation.pdf|présentation]], [[VT2021_vie_privee_et_objets_connectes_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 5 : 13/12 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Fintech et OpenBanking, LAMBERT	Paul, ELHADJI TCHIAMBOU Sami, [[File:Présentation.pdf|présentation]], [[VT2021_fintech_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast] (port de la cravate exigée)&lt;br /&gt;
* Merkle trees, HUMBERT	Corentin, YUNG	Kevin, [[File:VT2021_Merkle_Trees_presentation.pdf|présentation]], [[VT2021_Merkle_Trees_fiche|fiche]], [[VT2021_Merkle_Trees_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Blockchain Elrond, BARET	Dorian, GEITNER	Teva, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Text to Speech, Granger Oscar, Cosotti Kevin [[File:VT2021_TTS_presentation.pdf|présentation]], [[VT2021_TTS_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 6 : 3/1 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Psychométrie, LAMBERT	Daphné, DREZET	Lucas, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* GPT, AGUIAR 	Mathilde, HAJJI	Oumaima, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* TinyML, Buisine 	Julien, Mallen	Guillaume, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 7 : 10/1 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* CMS, SARRE	Margaux, NOERIE	Sophie, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Underwater Wireless Communications, MUTEL	Mathis, SIDIBE	Rose, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* ROS2, MALECOT	Ethan, CIRSTEA	Paul, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 8 : Asynchrone ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
=Sujets=&lt;br /&gt;
# [[Web Browser Fingerprinting]]&lt;br /&gt;
# [[Fintech]] &amp;amp; [[Open banking]] (système bancaire ouvert)&lt;br /&gt;
# [[Géolocalisation Ultra Wideband]] : fonctionnement, applications (Apple AirTags, Galaxy SmartTag+) ...&lt;br /&gt;
# [[Application Performance Monitoring]] : démonstration de [[Apache Skywalking]]&lt;br /&gt;
# [[GitHub Copilot]]&lt;br /&gt;
# [[GPT-J, GPT-3, GPT-2]]&lt;br /&gt;
# [[WebRTC]] : Web Real-Time Communication&lt;br /&gt;
# [[Low Code Development]]&lt;br /&gt;
# Le langage de programmation [[Zig]]&lt;br /&gt;
# [[Text-to-Speech]] : technologies et services et [[SSML]]: démonstration de l&#039;intégration des service TTS Wavenet de GCP et Amazon Polly dans eCOM (pour un binome).&lt;br /&gt;
# [[ROS2]] : Robot Operating System version 2&lt;br /&gt;
# [[TinyML]] : démonstration avec une carte STM32F7 (à récupérer au fablab).&lt;br /&gt;
# [[Multi-Region Database Deployments: Patterns and Anti-Patterns]] : démonstration avec [[Cockroack]]&lt;br /&gt;
# [[Proof of Coverage Blockchain]] : démonstration d&#039;[[Helium]] avec une gateway LoRa&lt;br /&gt;
# [[IPFS (InterPlanetary File System)]]&lt;br /&gt;
# [[Géolocalisation Wifi : principles et services de géolocalisation Wifi et cellulaire]]&lt;br /&gt;
# [[Kind]] : Goodbye minikube&lt;br /&gt;
# [[Netflix Cosmos]]&lt;br /&gt;
# [[Rudder]]&lt;br /&gt;
# [[Thread]] : démonstration avec le kit [[STM32WB55]]&lt;br /&gt;
# [[Remote sensing]]&lt;br /&gt;
# [[Caches distribués]]: démonstration avec [[Redis]]&lt;br /&gt;
# [[Log Structured Merge Trees]]&lt;br /&gt;
# [[Merkle Trees]]&lt;br /&gt;
# [[Riak]] Database System&lt;br /&gt;
# [[Flux]] (#fluxlang) new data scripting language to make querying and analyzing time series&lt;br /&gt;
# [[NATS]]: PubSub broker (démonstration avec CampusIoT)&lt;br /&gt;
# In-memory Distributed Data Grid : démonstration de eCom avec [[Apache Ignite]].&lt;br /&gt;
# [[jQAssistant]] : application à eCOM&lt;br /&gt;
# [[IoT Dataflow Mashup]] (démo avec [[Eclipse Kura Wires]])&lt;br /&gt;
# [[Géo-réplication]] : Démo avec [[Apache Kafka MirrorMaker]]&lt;br /&gt;
# [[Pulsar]]&lt;br /&gt;
# [[RSocket]]&lt;br /&gt;
# [[Nacos]] : open source project by Alibaba for service discovery and service configuration.&lt;br /&gt;
# [[NEMU]] : open source hypervisor specifically built and designed to run modern cloud workloads on modern 64-bit Intel and ARM CPUs.&lt;br /&gt;
# [[Fission]] : open-source serverless function framework for [[Kubernetes]] with a focus on developer productivity and high performance.&lt;br /&gt;
# [[Microclimate]]&lt;br /&gt;
# [[AdTech]]&lt;br /&gt;
# [[Conflict-free replicated data type]] (CRDT)&lt;br /&gt;
# [[In-Memory Data Grids]] : Démonstration de [[Gigaspaces]] et [[XAP]] Open Source&lt;br /&gt;
# Gestionnaires de contenu : démonstration de  [[Apache Jackrabbit]] dans le projet [[eCOM]]&lt;br /&gt;
# [[Memory-centric virtual distributed storage system]]&lt;br /&gt;
# [[ESB]] : démonstration de [[Mule ESB]]&lt;br /&gt;
# [[MemCached]]&lt;br /&gt;
# [[ Voice-First Development]] : Designing, Developing, and Deploying Conversational Interfaces&lt;br /&gt;
# [[Psychométrie]]&lt;br /&gt;
# [[Apache Beam]]&lt;br /&gt;
# [[Hazelcast]] : Démo avec Spring Boot ([https://dzone.com/storage/assets/6459742-dzone-rc247-gettingstartedwithspringbootandmicrose.pdf lien]) dans un projet [[JHipster]]&lt;br /&gt;
# [[In-Memory Data Grids]] : Démonstration de [[Gigaspaces]] et [[XAP]] Open Source&lt;br /&gt;
# Insport Video&lt;br /&gt;
# Gestionnaires de contenu : démonstration de  [[Apache Jackrabbit]] dans le projet [[eCOM]]&lt;br /&gt;
# [[Memory-centric virtual distributed storage system]]&lt;br /&gt;
# [[Performance Monitoring]]&lt;br /&gt;
# [[Access Network Query Protocol (ANQP)]]&lt;br /&gt;
# [[JCache]] : démonstration avec [[Apache Ignity]]&lt;br /&gt;
# [[MemCached]]&lt;br /&gt;
# [[Apache Stratos]]&lt;br /&gt;
# [[gceasy]] : Universal garbage collection log Analyser&lt;br /&gt;
# [[Apache Solr]] : Démonstration avec [http://hortonworks.com/hadoop-tutorial/indexing-and-searching-text-within-images-with-apache-solr/ Tesseract OCR]&lt;br /&gt;
# [[Content Delivery Network]]s : Démonstration de [[Amazon S3]], Azure, Akamaï ... sur votre projet [[ECOM-RICM|eCOM]]&lt;br /&gt;
# [[CMS]] : Demo avec [[Crafter CMS]]&lt;br /&gt;
# [[DMS]] (GED) : Demo avec la version Community Edition d&#039;[[Alfresco]] et de son API REST avec [[Swagger]]  ANNULé&lt;br /&gt;
# [[SIG]] : Démonstration de [[QGIS]]&lt;br /&gt;
# [[Apache Airflow]]&lt;br /&gt;
# [[AzureRTOS]] : système d&#039;exploitation pour l&#039;Internet des Objets. démonstration sur [https://www.st.com/en/evaluation-tools/b-l475e-iot01a.html B-L475] à récupérer au fablab.&lt;br /&gt;
# Algorithmes et systèmes de vote électronique : vices et vertus.&lt;br /&gt;
# [[Normes et systèmes de signature électronique]]&lt;br /&gt;
# Database as a Microservice : [[HarperDB]]&lt;br /&gt;
# [[Underwater Wireless Communications]]&lt;br /&gt;
# [[TiDB]]&lt;br /&gt;
# [[Pantavisor Linux]]: A Framework for Building Containerized IoT Systems&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51741</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51741"/>
		<updated>2021-12-13T13:45:32Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Transcription phonétique ==&lt;br /&gt;
La transcription phonétique, aussi connu sous le nom de Text-to-phoneme (TTP) ou Grapheme-to-phoneme (GTP), consiste à convertir un mot ou ensemble de mots en leur équivalent phonétique (par exemple Hello world devient hɛˈləʊ wɜːld). La plupart des algorithmes de transcription phonétiques s&#039;appuient aussi sur des dictionnaires de plusieurs milliers de mots. La plupart des problèmes de speech processing requiert des fonctions non-linéaires et pour cette raison l&#039;usage de réseau de neurones est essentiel. Dans la suite nous mentionnerons rapidement trois types de réseaux utilisé à cette fin, sans entrer dans tous les calculs complexes.&lt;br /&gt;
&lt;br /&gt;
=== Multilayer Perceptron (MLP) ===&lt;br /&gt;
Le Multilayer Perceptron consiste en une couche d&#039;entrée, plusieurs couches cachées et une couche de sortie, en général chaque neurones étant connecté à tous ses prédécesseurs et ses successeurs. La méthode d&#039;entrainement est celle du back-propagation, c&#039;est à dire qu&#039;on &amp;quot;déroule&amp;quot; une exécution jusqu&#039;à la couche de sortie puis de là on fait le chemin inverse en envoyant les résultats aux neurones précédents pour analyser les erreurs. On peut aussi régler un paramètre nommé le taux d&#039;apprentissage pour contrôler la vitesse de convergence et la stabilité du modèle.&lt;br /&gt;
&lt;br /&gt;
[[File:MLP.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Recurrent Neural Network (RNN) ===&lt;br /&gt;
Le Recurrent Neural Network incorpore une ou plusieurs boucle(s) de feedback. Elles peuvent être soit global (c&#039;est à dire les sorties du réseau sont réutilisées comme entrées) ou local (les sorties d&#039;une couche sont réutilisées comme entrées pour la même couche). De fait, ce type de réseau inclus en plus une dépendance temporelle, ce qui peut le rendre plus pratique pour des prédictions de texte par exemple.&lt;br /&gt;
&lt;br /&gt;
[[File:RNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Bidirectional Recurrent Neural Network (BRNN) ===&lt;br /&gt;
Comme vu précédemment, le RNN crée une dépendance temporelle vers le passé, ce qui signifie que dans le cas du text-to-phoneme on peut se servir de une ou plusieurs lettre précédant celle actuelle. Cependant dans le contexte de transcription phonétique, il est aussi utile d&#039;avoir le contexte (les lettres) dans le futur (les lettres suivantes). Pour ceci on divise l&#039;état des neurones en deux: une partie s&#039;occupe des états dans le sens positif (i.e les états suivants) tandis que l&#039;autre s&#039;occupe des états dans le sens négatif (i.e les états précédents). Les états précédents sont là pour introduire la dépendance du contexte alors que les états suivants indiquent les informations du contexte à partir des états précédents.&lt;br /&gt;
&lt;br /&gt;
[[File:BRNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;br /&gt;
&lt;br /&gt;
== Sources ==&lt;br /&gt;
- https://en.wikipedia.org/wiki/Speech_synthesis&lt;br /&gt;
&lt;br /&gt;
- https://trepo.tuni.fi/handle/10024/114031&lt;br /&gt;
&lt;br /&gt;
- https://github.com/numediart/MBROLA&lt;br /&gt;
&lt;br /&gt;
- https://github.com/stakira/OpenUtau&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51740</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51740"/>
		<updated>2021-12-13T13:44:27Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Transcription phonétique ==&lt;br /&gt;
La transcription phonétique, aussi connu sous le nom de Text-to-phoneme (TTP) ou Grapheme-to-phoneme (GTP), consiste à convertir un mot ou ensemble de mots en leur équivalent phonétique (par exemple Hello world devient hɛˈləʊ wɜːld). La plupart des algorithmes de transcription phonétiques s&#039;appuient aussi sur des dictionnaires de plusieurs milliers de mots. La plupart des problèmes de speech processing requiert des fonctions non-linéaires et pour cette raison l&#039;usage de réseau de neurones est essentiel. Dans la suite nous mentionnerons rapidement trois types de réseaux utilisé à cette fin, sans entrer dans tous les calculs complexes.&lt;br /&gt;
&lt;br /&gt;
=== Multilayer Perceptron (MLP) ===&lt;br /&gt;
Le Multilayer Perceptron consiste en une couche d&#039;entrée, plusieurs couches cachées et une couche de sortie, en général chaque neurones étant connecté à tous ses prédécesseurs et ses successeurs. La méthode d&#039;entrainement est celle du back-propagation, c&#039;est à dire qu&#039;on &amp;quot;déroule&amp;quot; une exécution jusqu&#039;à la couche de sortie puis de là on fait le chemin inverse en envoyant les résultats aux neurones précédents pour analyser les erreurs. On peut aussi régler un paramètre nommé le taux d&#039;apprentissage pour contrôler la vitesse de convergence et la stabilité du modèle.&lt;br /&gt;
&lt;br /&gt;
[[File:MLP.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Recurrent Neural Network (RNN) ===&lt;br /&gt;
Le Recurrent Neural Network incorpore une ou plusieurs boucle(s) de feedback. Elles peuvent être soit global (c&#039;est à dire les sorties du réseau sont réutilisées comme entrées) ou local (les sorties d&#039;une couche sont réutilisées comme entrées pour la même couche). De fait, ce type de réseau inclus en plus une dépendance temporelle, ce qui peut le rendre plus pratique pour des prédictions de texte par exemple.&lt;br /&gt;
&lt;br /&gt;
[[File:RNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Bidirectional Recurrent Neural Network (BRNN) ===&lt;br /&gt;
Comme vu précédemment, le RNN crée une dépendance temporelle vers le passé, ce qui signifie que dans le cas du text-to-phoneme on peut se servir de une ou plusieurs lettre précédant celle actuelle. Cependant dans le contexte de transcription phonétique, il est aussi utile d&#039;avoir le contexte (les lettres) dans le futur (les lettres suivantes). Pour ceci on divise l&#039;état des neurones en deux: une partie s&#039;occupe des états dans le sens positif (i.e les états suivants) tandis que l&#039;autre s&#039;occupe des états dans le sens négatif (i.e les états précédents). Les états précédents sont là pour introduire la dépendance du contexte alors que les états suivants indiquent les informations du contexte à partir des états précédents.&lt;br /&gt;
&lt;br /&gt;
[[File:BRNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;br /&gt;
&lt;br /&gt;
== Sources ==&lt;br /&gt;
- https://en.wikipedia.org/wiki/Speech_synthesis&lt;br /&gt;
- https://trepo.tuni.fi/handle/10024/114031&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51739</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51739"/>
		<updated>2021-12-13T13:33:26Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Transcription phonétique ==&lt;br /&gt;
La transcription phonétique, aussi connu sous le nom de Text-to-phoneme (TTP) ou Grapheme-to-phoneme (GTP), consiste à convertir un mot ou ensemble de mots en leur équivalent phonétique (par exemple Hello world devient hɛˈləʊ wɜːld). La plupart des algorithmes de transcription phonétiques s&#039;appuient aussi sur des dictionnaires de plusieurs milliers de mots. La plupart des problèmes de speech processing requiert des fonctions non-linéaires et pour cette raison l&#039;usage de réseau de neurones est essentiel. Dans la suite nous mentionnerons rapidement trois types de réseaux utilisé à cette fin, sans entrer dans tous les calculs complexes.&lt;br /&gt;
&lt;br /&gt;
=== Multilayer Perceptron (MLP) ===&lt;br /&gt;
Le Multilayer Perceptron consiste en une couche d&#039;entrée, plusieurs couches cachées et une couche de sortie, en général chaque neurones étant connecté à tous ses prédécesseurs et ses successeurs. La méthode d&#039;entrainement est celle du back-propagation, c&#039;est à dire qu&#039;on &amp;quot;déroule&amp;quot; une exécution jusqu&#039;à la couche de sortie puis de là on fait le chemin inverse en envoyant les résultats aux neurones précédents pour analyser les erreurs. On peut aussi régler un paramètre nommé le taux d&#039;apprentissage pour contrôler la vitesse de convergence et la stabilité du modèle.&lt;br /&gt;
&lt;br /&gt;
[[File:MLP.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Recurrent Neural Network (RNN) ===&lt;br /&gt;
Le Recurrent Neural Network incorpore une ou plusieurs boucle(s) de feedback. Elles peuvent être soit global (c&#039;est à dire les sorties du réseau sont réutilisées comme entrées) ou local (les sorties d&#039;une couche sont réutilisées comme entrées pour la même couche). De fait, ce type de réseau inclus en plus une dépendance temporelle, ce qui peut le rendre plus pratique pour des prédictions de texte par exemple.&lt;br /&gt;
&lt;br /&gt;
[[File:RNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Bidirectional Recurrent Neural Network (BRNN) ===&lt;br /&gt;
Comme vu précédemment, le RNN crée une dépendance temporelle vers le passé, ce qui signifie que dans le cas du text-to-phoneme on peut se servir de une ou plusieurs lettre précédant celle actuelle. Cependant dans le contexte de transcription phonétique, il est aussi utile d&#039;avoir le contexte (les lettres) dans le futur (les lettres suivantes). Pour ceci on divise l&#039;état des neurones en deux: une partie s&#039;occupe des états dans le sens positif (i.e les états suivants) tandis que l&#039;autre s&#039;occupe des états dans le sens négatif (i.e les états précédents). Les états précédents sont là pour introduire la dépendance du contexte alors que les états suivants indiquent les informations du contexte à partir des états précédents.&lt;br /&gt;
&lt;br /&gt;
[[File:BRNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51736</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51736"/>
		<updated>2021-12-13T13:21:07Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Transcription phonétique ==&lt;br /&gt;
La transcription phonétique, aussi connu sous le nom de Text-to-phoneme (TTP) ou Grapheme-to-phoneme (GTP), consiste à convertir un mot ou ensemble de mots en leur équivalent phonétique (par exemple Hello world devient hɛˈləʊ wɜːld). La plupart des algorithmes de transcription phonétiques s&#039;appuient aussi sur des dictionnaires de plusieurs milliers de mots. La plupart des problèmes de speech processing requiert des fonctions non-linéaires et pour cette raison l&#039;usage de réseau de neurones est essentiel. Dans la suite nous mentionnerons rapidement trois types de réseaux utilisé à cette fin, sans entrer dans tous les calculs complexes.&lt;br /&gt;
&lt;br /&gt;
=== Multilayer Perceptron (MLP) ===&lt;br /&gt;
Le Multilayer Perceptron consiste en une couche d&#039;entrée, plusieurs couches cachées et une couche de sortie, en général chaque neurones étant connecté à tous ses prédécesseurs et ses successeurs. La méthode d&#039;entrainement est celle du back-propagation, c&#039;est à dire qu&#039;on &amp;quot;déroule&amp;quot; une exécution jusqu&#039;à la couche de sortie puis de là on fait le chemin inverse en envoyant les résultats aux neurones précédents pour analyser les erreurs. On peut aussi régler un paramètre nommé le taux d&#039;apprentissage pour contrôler la vitesse de convergence et la stabilité du modèle.&lt;br /&gt;
&lt;br /&gt;
[[File:MLP.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Recurrent Neural Network (RNN) ===&lt;br /&gt;
Le Recurrent Neural Network incorpore une ou plusieurs boucle(s) de feedback. Elles peuvent être soit global (c&#039;est à dire les sorties du réseau sont réutilisées comme entrées) ou local (les sorties d&#039;une couche sont réutilisées comme entrées pour la même couche). De fait, ce type de réseau inclus en plus une dépendance temporelle, ce qui peut le rendre plus pratique pour des prédictions de texte par exemple.&lt;br /&gt;
&lt;br /&gt;
[[File:RNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Bidirectional Recurrent Neural Network (BRNN) ===&lt;br /&gt;
&lt;br /&gt;
[[File:BRNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51735</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51735"/>
		<updated>2021-12-13T11:00:24Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Transcription phonétique ==&lt;br /&gt;
La transcription phonétique, aussi connu sous le nom de Text-to-phoneme (TTP) ou Grapheme-to-phoneme (GTP), consiste à convertir un mot ou ensemble de mots en leur équivalent phonétique (par exemple Hello world devient hɛˈləʊ wɜːld). La plupart des algorithmes de transcription phonétiques s&#039;appuient aussi sur des dictionnaires de plusieurs milliers de mots. La plupart des problèmes de speech processing requiert des fonctions non-linéaires et pour cette raison l&#039;usage de réseau de neurones est essentiel. Dans la suite nous mentionnerons rapidement trois types de réseaux utilisé à cette fin, sans entrer dans tous les calculs complexes.&lt;br /&gt;
&lt;br /&gt;
=== Multilayer Perceptron (MLP) ===&lt;br /&gt;
Le Multilayer Perceptron consiste en une couche d&#039;entrée, plusieurs couches cachées et une couche de sortie, en général chaque neurones étant connecté à tous ses prédécesseurs et ses successeurs. La méthode d&#039;entrainement est celle du back-propagation, c&#039;est à dire qu&#039;on &amp;quot;déroule&amp;quot; une exécution jusqu&#039;à la couche de sortie puis de là on fait le chemin inverse en envoyant les résultats aux neurones précédents pour analyser les erreurs. On peut aussi régler un paramètre nommé le taux d&#039;apprentissage pour contrôler la vitesse de convergence et la stabilité du modèle.&lt;br /&gt;
&lt;br /&gt;
[[File:MLP.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Recurrent Neural Network (RNN) ===&lt;br /&gt;
&lt;br /&gt;
[[File:RNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Bidirectional Recurrent Neural Network (BRNN) ===&lt;br /&gt;
&lt;br /&gt;
[[File:BRNN.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=File:RNN.PNG&amp;diff=51734</id>
		<title>File:RNN.PNG</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=File:RNN.PNG&amp;diff=51734"/>
		<updated>2021-12-13T10:59:48Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=File:MLP.PNG&amp;diff=51733</id>
		<title>File:MLP.PNG</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=File:MLP.PNG&amp;diff=51733"/>
		<updated>2021-12-13T10:59:32Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=File:BRNN.PNG&amp;diff=51732</id>
		<title>File:BRNN.PNG</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=File:BRNN.PNG&amp;diff=51732"/>
		<updated>2021-12-13T10:59:19Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51731</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51731"/>
		<updated>2021-12-13T10:54:10Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: /* Multilayer Perceptron (MLP) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Transcription phonétique ==&lt;br /&gt;
La transcription phonétique, aussi connu sous le nom de Text-to-phoneme (TTP) ou Grapheme-to-phoneme (GTP), consiste à convertir un mot ou ensemble de mots en leur équivalent phonétique (par exemple Hello world devient hɛˈləʊ wɜːld). La plupart des algorithmes de transcription phonétiques s&#039;appuient aussi sur des dictionnaires de plusieurs milliers de mots. La plupart des problèmes de speech processing requiert des fonctions non-linéaires et pour cette raison l&#039;usage de réseau de neurones est essentiel. Dans la suite nous mentionnerons rapidement trois types de réseaux utilisé à cette fin, sans entrer dans tous les calculs complexes.&lt;br /&gt;
&lt;br /&gt;
=== Multilayer Perceptron (MLP) ===&lt;br /&gt;
Le Multilayer Perceptron consiste en une couche d&#039;entrée, plusieurs couches cachées et une couche de sortie, en général chaque neurones étant connecté à tous ses prédécesseurs et ses successeurs. La méthode d&#039;entrainement est celle du back-propagation, c&#039;est à dire qu&#039;on &amp;quot;déroule&amp;quot; une exécution jusqu&#039;à la couche de sortie puis de là on fait le chemin inverse en envoyant les résultats aux neurones précédents pour analyser les erreurs. On peut aussi régler un paramètre nommé le taux d&#039;apprentissage pour contrôler la vitesse de convergence et la stabilité du modèle.&lt;br /&gt;
&lt;br /&gt;
=== Recurrent Neural Network (RNN) ===&lt;br /&gt;
&lt;br /&gt;
=== Bidirectional Recurrent Neural Network (BRNN) ===&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51730</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51730"/>
		<updated>2021-12-13T10:53:39Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: /* Multilayer Perceptron (MLP) */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Transcription phonétique ==&lt;br /&gt;
La transcription phonétique, aussi connu sous le nom de Text-to-phoneme (TTP) ou Grapheme-to-phoneme (GTP), consiste à convertir un mot ou ensemble de mots en leur équivalent phonétique (par exemple Hello world devient hɛˈləʊ wɜːld). La plupart des algorithmes de transcription phonétiques s&#039;appuient aussi sur des dictionnaires de plusieurs milliers de mots. La plupart des problèmes de speech processing requiert des fonctions non-linéaires et pour cette raison l&#039;usage de réseau de neurones est essentiel. Dans la suite nous mentionnerons rapidement trois types de réseaux utilisé à cette fin, sans entrer dans tous les calculs complexes.&lt;br /&gt;
&lt;br /&gt;
=== Multilayer Perceptron (MLP) ===&lt;br /&gt;
Le Multilayer Perceptron consiste en une couche d&#039;entrée, plusieurs couches cachées et une couche de sortie, en général chaque neurones étant connecté à tous ses prédécesseurs et ses successeurs. La méthode d&#039;entrainement est celle du back-propagation, c&#039;est à dire qu&#039;on &amp;quot;déroule&amp;quot; une exécution jusqu&#039;à la couche de sortie puis de là on fait le chemin inverse en envyant les résultats aux neurones précédents pour analyser les erreurs. On peut aussi régler un paramètre nommé le taux d&#039;apprentissage pour contrôler la vitesse de convergence et la stabilité du modèle.&lt;br /&gt;
&lt;br /&gt;
=== Recurrent Neural Network (RNN) ===&lt;br /&gt;
&lt;br /&gt;
=== Bidirectional Recurrent Neural Network (BRNN) ===&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51729</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51729"/>
		<updated>2021-12-13T10:53:13Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Transcription phonétique ==&lt;br /&gt;
La transcription phonétique, aussi connu sous le nom de Text-to-phoneme (TTP) ou Grapheme-to-phoneme (GTP), consiste à convertir un mot ou ensemble de mots en leur équivalent phonétique (par exemple Hello world devient hɛˈləʊ wɜːld). La plupart des algorithmes de transcription phonétiques s&#039;appuient aussi sur des dictionnaires de plusieurs milliers de mots. La plupart des problèmes de speech processing requiert des fonctions non-linéaires et pour cette raison l&#039;usage de réseau de neurones est essentiel. Dans la suite nous mentionnerons rapidement trois types de réseaux utilisé à cette fin, sans entrer dans tous les calculs complexes.&lt;br /&gt;
&lt;br /&gt;
=== Multilayer Perceptron (MLP) ===&lt;br /&gt;
Le Multilayer Perceptron consiste en une couche d&#039;entrée, plusieurs couches cachées et une couche de sortie, en général chaque neurones étant connecté à tous ses prédécesseurs et ses successeurs. La méthode d&#039;entrainement est elle du back-propagation, c&#039;est à dire qu&#039;on &amp;quot;déroule&amp;quot; une exécution jusqu&#039;à la couche de sortie puis de là on fait le chemin inverse en envyant les résultats aux neurones précédents pour analyser les erreurs. On peut aussi régler un paramètre nommé le taux d&#039;apprentissage pour contrôler la vitesse de convergence et la stabilité du modèle.&lt;br /&gt;
&lt;br /&gt;
=== Recurrent Neural Network (RNN) ===&lt;br /&gt;
&lt;br /&gt;
=== Bidirectional Recurrent Neural Network (BRNN) ===&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51724</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51724"/>
		<updated>2021-12-13T10:31:17Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
Text-To-Speech (TTS), also known as &amp;quot;Speech Synthesis&amp;quot; consist in having a machine convert text into understandable speech. If currently we take it for granted, it still possesses various forms which does not have the same applications. In fact, trainstations&#039; announcements, pronouciation helpers or even virtual singers all use different versions of this technology. After a short presentation of it, we&#039;ll discuss of the most fequently used techniques, of their basic principle, of their pros and their cons.&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51717</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51717"/>
		<updated>2021-12-13T10:21:41Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_électronique.PNG]]&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=File:%C3%88re_%C3%A9lectronique.PNG&amp;diff=51716</id>
		<title>File:Ère électronique.PNG</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=File:%C3%88re_%C3%A9lectronique.PNG&amp;diff=51716"/>
		<updated>2021-12-13T10:21:12Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51714</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51714"/>
		<updated>2021-12-13T10:18:26Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
En 1968 sort le premier système de Text-To-Speech générique anglais, développé par Noriko Umeda. Dans la fin des années 60 et le début des années 70 le Linear Predictive Coding(LPC), une forme de codage de la parole, voit le jour. Le LPC est majoritairement utilisé pour représenter l&#039;enveloppe spectral d&#039;un signal digital de parole sous sa forme compressé et sera dans la fin des années 70 la base des systèmes embarqués de synthèse vocale.&lt;br /&gt;
En 1975 l&#039;un des premiers systèmes de synthèse vocale, le MUSA(MUltichannel Speaking Automaton) sort; cela consistait simplement en un ordinateur avec dessus installé un logiciel permettant de lire l&#039;italien.&lt;br /&gt;
Toujours en 1975, Fumitada Itakura a développé la méthode Line Spectral Pairs(LSP) pour une haute compression du codage de la parole. En 1980, son équipe sorti une puce de synthèse vocale basé sur le LSP. Par la suite, le LSP sera reconnu comme quasi essentiel et dans les années 90 sera adopté dans pratiquement tous les standards du codage de la parole.&lt;br /&gt;
&lt;br /&gt;
== Enjeux de la technologie ==&lt;br /&gt;
&lt;br /&gt;
La difficulté que cette technologie rencontre vient de la complexité du langage humain. En effet, si pour le verbal (qui touche uniquement au contenue dit), il semble envisageable de le convertir en voix, il est autrement plus compliqué d’y ajouter la prosodie, “comment on le dit”. Cette dernière comporte tous les aspects de la parole qui ne tient pas du contenue. Soit le ton, le rythme, les pauses, l’accentuation, et le débit de la parole. Ces éléments restent un point essentiel dans la communication orale et les retranscrire via la machine est tout le défi du text-to-speech.&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;br /&gt;
&lt;br /&gt;
== Conclusion ==&lt;br /&gt;
&lt;br /&gt;
Le TTS est une technologie bien maîtrisée, preuve en est de son utilisation déjà présente dans la vie courante. Ses diverses méthodes permettent une utilisation plus ou moins poussée, du système embarqué à l&#039;entraînement intensif de réseau de neurone, du tout automatisé au grand contrôle de l’humain. &lt;br /&gt;
En somme c’est une technologie dont l’avenir viendra uniquement de son perfectionnement, sur tous ses plans.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51704</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51704"/>
		<updated>2021-12-13T09:49:34Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: /* Synthèse vocale */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG|320px*130px]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51703</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51703"/>
		<updated>2021-12-13T09:49:13Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG|320px*130px]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;br /&gt;
&lt;br /&gt;
== Synthèse vocale ==&lt;br /&gt;
Une fois que la machine connaît les sons qu’elle doit dire, il lui faut encore savoir comment les générer. Pour cela, il y a 3 grandes approches.&lt;br /&gt;
-Synthèse par concaténation&lt;br /&gt;
-Synthèse par Formant&lt;br /&gt;
-Deep Learning&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par concaténation ===&lt;br /&gt;
Le principe de la concaténation est simple, on met bout-à-bout les sons nécessaires pour former la parole. Cela demande cependant d’enregistrer au préalable ces sons et d’avoir une bonne mémoire pour les stocker. C’est pour cela qu’il y a différentes façons de mettre en place ce genre de synthèse. &lt;br /&gt;
La méthode qui est le plus utilisée, car le plus “naturel” à l’écoute consiste à avoir tous les sons possibles d’une langue, pas seulement les phonèmes, mais aussi les diphones (son entre 2 phonèmes) et autres briques élémentaires de la parole. Cette méthode reste très coûteuse en données et sur une mauvaise “partitions” de phonèmes, présenteras des glitch auditif. (Exemples :Vocaloid/Utauloid synthèse de chant)&lt;br /&gt;
Pour des textes à vocabulaire restreint il est possible d’enregistrer directement des bouts de phrase. Très proche de la parole humaine car peu retouché par la machine, il reste cependant très limité car impossible d’utiliser des mots non-enregistrés. L’un des meilleurs exemples est la voix de la sncf qui annonce les trains.&lt;br /&gt;
Il y a également un mix entre la synthèse par concaténation et par formant, avec la synthèse par diphones. Son principe étant de concaténer des sont généré par ordinateur et les diphones enregistrés, limitant ainsi les données à transporter. Peu utilisé car sonne moins “vrai”, on a cependant le modèle Mbrola qui fonctionne très bien.&lt;br /&gt;
&lt;br /&gt;
=== Synthèse par formant ===&lt;br /&gt;
La synthèse par formant est également simple dans son approche : on génère tous les sons par ordinateur. Les phonèmes, diphones et autres étant caractérisés par des formant, les fréquences fondamentales du son les produisant. Ainsi, le son /i/ se forme avec les formants 1 à 250 Hz, le 2 à 2250 Hz et le 3 à 3000 Hz.Ce processus donne des sons bien moins réalistes que la concaténation, mais tient bien plus facilement dans un système embarqué.&lt;br /&gt;
&lt;br /&gt;
=== Deep learning ===&lt;br /&gt;
La troisième grande méthode pour synthétiser une voix est le deep learning. Apparue beaucoup plus récemment que les autres techniques (2016-2017, par Google et Facebook), son principe repose sur l&#039;entraînement d’un réseau de neurones pour lier un texte avec le spectre d’une voix disant ce texte. On ne passe plus par la conversion en phonème. Les résultats sont extrêmement bons. Comme le processus apprend également la prosodie du locuteur, il la répliquera, donnant ainsi un résultat très proche de l’humain. Le procédé reproduit la voix et l’accent de la personne qui à servi à l&#039;entraînement. Il y a tout de même des limites, la prosodie ainsi créée n’est pas garantie d’être en lien avec le texte : un ton joyeux pour un texte triste est vite arrivé. Il ne faut pas oublier également que cette technologie est très coûteuse en calcul, tant pour l’apprentissage que pour son utilisation.&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51702</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51702"/>
		<updated>2021-12-13T09:45:43Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Le Text-To-Speech (TTS), aussi connu sous le nom de “Synthèse Vocal” est le concept de faire convertir par la machine un texte en parole compréhensible. Si de nos jours, avec la démocratisation d’outils utilisant le TTS, cette technologie semble acquise, elle possède tout de même différentes formes qui n’ont pas les mêmes applications. En effet, les annonces dans les gares, les aides à la prononciation où même encore des chanteurs virtuels utilisent tous des versions différentes de cette technologie. Après une courte présentation de l’histoire de cette technologie, nous parlerons ici des techniques les plus utilisées du domaine, de leur principe de base, de leurs atouts et de leurs défauts.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clés :&#039;&#039;&#039; TTS, Synthèse vocal, réseaux de neurones, Text-To-Phoneme&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG|320px*130px]]&lt;br /&gt;
&lt;br /&gt;
=== Ère électronique ===&lt;br /&gt;
Les premiers systèmes de synthèse vocale par ordinateur sont apparus à la fin des années 50.&lt;br /&gt;
En 1961 les physiciens John Larry Kelly et Louis Gerstman ont utilisé un IBM 704 pour synthétiser de la parole: c&#039;est d&#039;ailleurs ce système qui est utilisé dans 2001: L&#039;Odyssée de l&#039;Espace (l&#039;ordinateur HAL 9000).&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51701</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51701"/>
		<updated>2021-12-13T09:35:58Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).\&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG|320px*130px]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51700</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51700"/>
		<updated>2021-12-13T09:35:06Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
&lt;br /&gt;
[[File:Ère_mécanique.PNG|320px*130px]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=File:%C3%88re_m%C3%A9canique.PNG&amp;diff=51698</id>
		<title>File:Ère mécanique.PNG</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=File:%C3%88re_m%C3%A9canique.PNG&amp;diff=51698"/>
		<updated>2021-12-13T09:33:48Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: Kevin.Cosotti uploaded a new version of File:Ère mécanique.PNG&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=File:%C3%88re_m%C3%A9canique.PNG&amp;diff=51696</id>
		<title>File:Ère mécanique.PNG</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=File:%C3%88re_m%C3%A9canique.PNG&amp;diff=51696"/>
		<updated>2021-12-13T09:31:47Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: Kevin.Cosotti uploaded a new version of File:Ère mécanique.PNG&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51695</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51695"/>
		<updated>2021-12-13T09:29:23Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.PNG|320px*130px]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51694</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51694"/>
		<updated>2021-12-13T09:29:05Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.PNG|320px]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51693</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51693"/>
		<updated>2021-12-13T09:28:14Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51691</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51691"/>
		<updated>2021-12-13T09:28:00Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.PNG|thumb]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51690</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51690"/>
		<updated>2021-12-13T09:27:51Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.PNG|200px|thumb]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51689</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51689"/>
		<updated>2021-12-13T09:27:39Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.png|500px|thumb]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51688</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51688"/>
		<updated>2021-12-13T09:27:17Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.PNG|500px|thumb]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51687</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51687"/>
		<updated>2021-12-13T09:26:40Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.PNG|500px]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51685</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51685"/>
		<updated>2021-12-13T09:25:33Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.PNG]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51684</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51684"/>
		<updated>2021-12-13T09:25:15Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international: [aː], [eː], [iː], [oː] et [uː]).&lt;br /&gt;
Ensuite, en 1791, Wolfgang von Kempelen décrit son modèle de &amp;quot;machine vocale mécanico-acoustique&amp;quot;; cette machine fonctionnait à base de soufflets et ajoutait la reproduction de la longue et des lèvres, rendant possible de produire les sons associés aux consonnes. Plusieurs &amp;quot;machines parlantes&amp;quot; basées sur ce modèle verront le jour comme celle de Charles Wheatstone en 1837 ou encore la machine &amp;quot;Euphonia&amp;quot; de Joseph Faber en 1846.&lt;br /&gt;
Dans les années 30 Bell Labs ont développés le vocoder, un codec vocal capable d&#039;analyser automatiquement le langage. A partir de ceci Homer Dudley créa un synthétiseur de voix à clavier appelé le Voder(Voice Operating Demonstrator).&lt;br /&gt;
En 1950, le Dr. Franklin S. Cooper et ses collègues des laboratoires Haskins terminent leur lecteur de motif, machine convertissant des images de motif acoustique (sous forme de spectrogramme) en son.&lt;br /&gt;
[[File:Ère_mécanique.jpg]]&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=File:%C3%88re_m%C3%A9canique.PNG&amp;diff=51682</id>
		<title>File:Ère mécanique.PNG</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=File:%C3%88re_m%C3%A9canique.PNG&amp;diff=51682"/>
		<updated>2021-12-13T09:24:23Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51677</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51677"/>
		<updated>2021-12-13T08:43:46Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Histoire ==&lt;br /&gt;
=== Ère mécanique ===&lt;br /&gt;
Les premières traces de reproduction de l&#039;appareil vocal humain remonte 1779, quand le scientifique Germano-Danois Christian Gottlieb Kratzenstein présente une reproduction de conduit vocal humain capable de produire le son des 5 voyelles (en alphabet phonétique international&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021&amp;diff=51676</id>
		<title>VT2021</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021&amp;diff=51676"/>
		<updated>2021-12-13T08:34:35Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[VT2020|&amp;lt;&amp;lt; Etudes 2020]] [[VT|Sommaire]] [[VT2022|Etudes 2022 &amp;gt;&amp;gt;]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=Veille Technologique et Stratégique=&lt;br /&gt;
* Enseignants: [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
* UE/Module: EAM (HPRJ9R6B) et EAR (HPRJ9R4B) en 1FO5&lt;br /&gt;
&lt;br /&gt;
L&#039;objectif de cette UE est de réaliser un travail de synthèse et d’évaluation sur une technologie / spécification / tendance&lt;br /&gt;
&lt;br /&gt;
Dans votre futur vie d&#039;ingénieur, vous aurez à d&#039;une part, vous former par vous-même sur une technologie émergente et d&#039;autre part à réaliser une veille technologique (et stratégique) par rapport à votre entreprise et projet.&lt;br /&gt;
Il s&#039;agira de réaliser&lt;br /&gt;
* le positionnement par rapport au marché&lt;br /&gt;
* d&#039;être critique&lt;br /&gt;
&lt;br /&gt;
Votre synthèse fait l&#039;objet d&#039;une présentation orale convaincante devant un auditoire (dans le futur, vos collègues, vos chefs ou vos clients) avec des transparents et un discours répété.&lt;br /&gt;
Pour finir de convaincre (Saint Thomas), vous ferez la présentation d&#039;une démonstration.&lt;br /&gt;
&lt;br /&gt;
Votre présentation sera notée et commentée par tous vos camarades via un sondage (téléphone mobile). Leurs notes et leurs commentaires seront notés en fonction de leur exactitude de jugement.&lt;br /&gt;
&lt;br /&gt;
Remarque: Le [https://fr.wikipedia.org/wiki/Plagiat plagiat] est incompatible avec l&#039;éthique de l&#039;ingénieur. Le directeur d&#039;école peut demander votre traduction devant la commission disciplinaire de l&#039;université. La sanction peut aller jusqu’à une interdiction d&#039;inscription dans les établissements de l&#039;enseignement supérieur français pendant plusieurs années : Le jeu en vaut-il la chandelle ?&lt;br /&gt;
&lt;br /&gt;
La présentation peut être réalisée avec [[reveal.js]] ou avec [[remarkjs]]&lt;br /&gt;
&lt;br /&gt;
[[File:presentation-VT-INFO5-2122.pdf|transparents d&#039;introduction à l&#039;UE]]&lt;br /&gt;
&lt;br /&gt;
=Planning=&lt;br /&gt;
&lt;br /&gt;
== Séance 1 : 15/11 ==&lt;br /&gt;
exceptionnellement en distanciel [https://univ-grenoble-alpes-fr.zoom.us/j/98434116324?pwd=NmJHVFZvQm9LQWtYclF3U09QVjZVQT09]&lt;br /&gt;
Enseignants :[[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
Présentation et organisation.&lt;br /&gt;
&lt;br /&gt;
== Séance 2 : 22/11 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Bio-inspired algoritms, BAUDEUR Bertrand, TONDEUX Emilie, [[File:VT2021_BioInspiredAlgo_presentation.pdf|présentation]], [[VT2021_BioInspiredAlgo_fiche|fiche]], [[VT2021_BioInspiredAlgo_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Le langage Zig, PARA	Yaël, MALOD	Victor, [[File:VT2021_Zig_presentation.pdf|présentation]], [[VT2021_Zig_fiche|fiche]], [[VT2021_Zig_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* GitHub Copilot, BLANQUET	Antoine, PRAT CAPILLA	Hugo, [[File:VT2021_GitHubCopilot_presentation.pdf|présentation]], [[VT2021_GitHubCopilot_fiche|fiche]], [[VT2021_GitHubCopilot_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 3 : 29/11 ==&lt;br /&gt;
Enseignants : [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Cloud Hypervisor, CHALOYARD	Lucas, EL YANDOUZI	Elias, [[File:Cloud Hypervisor.pdf|présentation]], [[VT2021_Cloud-Hypervisor_Fiche|fiche]], [https://www.youtube.com/watch?v=UsMEkOlImgw Démo à 26:30], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Kind, GITTON	Antoine, MINIER MANCINI	Titouan, [[File:VT2021_Kind_presentation.pdf|présentation]], [[VT2021_Kind_fiche|fiche]], [[VT2021_Kind_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Apache Workflow, JULIENNE	Malone, CAMBUS	Quentin, [[File:VT2021_ApacheAirflow_presentation.pdf|présentation]], [[VT2021_ApacheAirflow_fiche|fiche]], [[VT2021_ApacheAirflow_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 4 : 6/12 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Content Delivery Networks (CDN), REGOUIN	Roman, ANDRIEUX	Liam, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_CDN_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Netflix Cosmos, HERQUE	Eric, VACHERIAS	Guillaume, [[File:VT2021_Netflix_Cosmos_presentation.pdf|présentation]], [[VT2021_Netflix_Cosmos_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Web Browser Fingerprinting, LANQUETIN	Alexis, GONZALEZ	Jules, [[File:Web Browser FingerPrint.pdf|présentation]], [[VT2021_fingerprinting|fiche]], [[demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Vie privée et objets connectés, Mertens	Gilles, Soulard	Alexandre, [[File:VT2021_vie_privee_et_objets_connectes_presentation.pdf|présentation]], [[VT2021_vie_privee_et_objets_connectes_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 5 : 13/12 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Fintech et OpenBanking, LAMBERT	Paul, ELHADJI TCHIAMBOU Sami, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_fintech_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast] (port de la cravate exigée)&lt;br /&gt;
* Merkle trees, HUMBERT	Corentin, YUNG	Kevin, [[File:VT2021_Merkle_Trees_presentation.pdf|présentation]], [[VT2021_Merkle_Trees_fiche|fiche]], [[VT2021_Merkle_Trees_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Blockchain Elrond, BARET	Dorian, GEITNER	Teva, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Text to Speech, Granger Oscar, Cosotti Kevin [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_TTS_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 6 : 3/1 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* Psychométrie, LAMBERT	Daphné, DREZET	Lucas, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* GPT, AGUIAR 	Mathilde, HAJJI	Oumaima, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* TinyML, Buisine 	Julien, Mallen	Guillaume, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 7 : 10/1 ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
* CMS, SARRE	Margaux, NOERIE	Sophie, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* Underwater Wireless Communications, MUTEL	Mathis, SIDIBE	Rose, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
* ROS2, MALECOT	Ethan, CIRSTEA	Paul, [[File:VT2021_XXXX_presentation.pdf|présentation]], [[VT2021_XXX_fiche|fiche]], [[VT2021_XXX_demo|demo]], [https://montube.com/AZERTYUIO screencast]&lt;br /&gt;
&lt;br /&gt;
== Séance 8 : Asynchrone ==&lt;br /&gt;
Enseignants : [[User:Gpbonneau|Georges-Pierre Bonneau]], [[User:Donsez|Didier Donsez]]&lt;br /&gt;
&lt;br /&gt;
=Sujets=&lt;br /&gt;
# [[Web Browser Fingerprinting]]&lt;br /&gt;
# [[Fintech]] &amp;amp; [[Open banking]] (système bancaire ouvert)&lt;br /&gt;
# [[Géolocalisation Ultra Wideband]] : fonctionnement, applications (Apple AirTags, Galaxy SmartTag+) ...&lt;br /&gt;
# [[Application Performance Monitoring]] : démonstration de [[Apache Skywalking]]&lt;br /&gt;
# [[GitHub Copilot]]&lt;br /&gt;
# [[GPT-J, GPT-3, GPT-2]]&lt;br /&gt;
# [[WebRTC]] : Web Real-Time Communication&lt;br /&gt;
# [[Low Code Development]]&lt;br /&gt;
# Le langage de programmation [[Zig]]&lt;br /&gt;
# [[Text-to-Speech]] : technologies et services et [[SSML]]: démonstration de l&#039;intégration des service TTS Wavenet de GCP et Amazon Polly dans eCOM (pour un binome).&lt;br /&gt;
# [[ROS2]] : Robot Operating System version 2&lt;br /&gt;
# [[TinyML]] : démonstration avec une carte STM32F7 (à récupérer au fablab).&lt;br /&gt;
# [[Multi-Region Database Deployments: Patterns and Anti-Patterns]] : démonstration avec [[Cockroack]]&lt;br /&gt;
# [[Proof of Coverage Blockchain]] : démonstration d&#039;[[Helium]] avec une gateway LoRa&lt;br /&gt;
# [[IPFS (InterPlanetary File System)]]&lt;br /&gt;
# [[Géolocalisation Wifi : principles et services de géolocalisation Wifi et cellulaire]]&lt;br /&gt;
# [[Kind]] : Goodbye minikube&lt;br /&gt;
# [[Netflix Cosmos]]&lt;br /&gt;
# [[Rudder]]&lt;br /&gt;
# [[Thread]] : démonstration avec le kit [[STM32WB55]]&lt;br /&gt;
# [[Remote sensing]]&lt;br /&gt;
# [[Caches distribués]]: démonstration avec [[Redis]]&lt;br /&gt;
# [[Log Structured Merge Trees]]&lt;br /&gt;
# [[Merkle Trees]]&lt;br /&gt;
# [[Riak]] Database System&lt;br /&gt;
# [[Flux]] (#fluxlang) new data scripting language to make querying and analyzing time series&lt;br /&gt;
# [[NATS]]: PubSub broker (démonstration avec CampusIoT)&lt;br /&gt;
# In-memory Distributed Data Grid : démonstration de eCom avec [[Apache Ignite]].&lt;br /&gt;
# [[jQAssistant]] : application à eCOM&lt;br /&gt;
# [[IoT Dataflow Mashup]] (démo avec [[Eclipse Kura Wires]])&lt;br /&gt;
# [[Géo-réplication]] : Démo avec [[Apache Kafka MirrorMaker]]&lt;br /&gt;
# [[Pulsar]]&lt;br /&gt;
# [[RSocket]]&lt;br /&gt;
# [[Nacos]] : open source project by Alibaba for service discovery and service configuration.&lt;br /&gt;
# [[NEMU]] : open source hypervisor specifically built and designed to run modern cloud workloads on modern 64-bit Intel and ARM CPUs.&lt;br /&gt;
# [[Fission]] : open-source serverless function framework for [[Kubernetes]] with a focus on developer productivity and high performance.&lt;br /&gt;
# [[Microclimate]]&lt;br /&gt;
# [[AdTech]]&lt;br /&gt;
# [[Conflict-free replicated data type]] (CRDT)&lt;br /&gt;
# [[In-Memory Data Grids]] : Démonstration de [[Gigaspaces]] et [[XAP]] Open Source&lt;br /&gt;
# Gestionnaires de contenu : démonstration de  [[Apache Jackrabbit]] dans le projet [[eCOM]]&lt;br /&gt;
# [[Memory-centric virtual distributed storage system]]&lt;br /&gt;
# [[ESB]] : démonstration de [[Mule ESB]]&lt;br /&gt;
# [[MemCached]]&lt;br /&gt;
# [[ Voice-First Development]] : Designing, Developing, and Deploying Conversational Interfaces&lt;br /&gt;
# [[Psychométrie]]&lt;br /&gt;
# [[Apache Beam]]&lt;br /&gt;
# [[Hazelcast]] : Démo avec Spring Boot ([https://dzone.com/storage/assets/6459742-dzone-rc247-gettingstartedwithspringbootandmicrose.pdf lien]) dans un projet [[JHipster]]&lt;br /&gt;
# [[In-Memory Data Grids]] : Démonstration de [[Gigaspaces]] et [[XAP]] Open Source&lt;br /&gt;
# Insport Video&lt;br /&gt;
# Gestionnaires de contenu : démonstration de  [[Apache Jackrabbit]] dans le projet [[eCOM]]&lt;br /&gt;
# [[Memory-centric virtual distributed storage system]]&lt;br /&gt;
# [[Performance Monitoring]]&lt;br /&gt;
# [[Access Network Query Protocol (ANQP)]]&lt;br /&gt;
# [[JCache]] : démonstration avec [[Apache Ignity]]&lt;br /&gt;
# [[MemCached]]&lt;br /&gt;
# [[Apache Stratos]]&lt;br /&gt;
# [[gceasy]] : Universal garbage collection log Analyser&lt;br /&gt;
# [[Apache Solr]] : Démonstration avec [http://hortonworks.com/hadoop-tutorial/indexing-and-searching-text-within-images-with-apache-solr/ Tesseract OCR]&lt;br /&gt;
# [[Content Delivery Network]]s : Démonstration de [[Amazon S3]], Azure, Akamaï ... sur votre projet [[ECOM-RICM|eCOM]]&lt;br /&gt;
# [[CMS]] : Demo avec [[Crafter CMS]]&lt;br /&gt;
# [[DMS]] (GED) : Demo avec la version Community Edition d&#039;[[Alfresco]] et de son API REST avec [[Swagger]]  ANNULé&lt;br /&gt;
# [[SIG]] : Démonstration de [[QGIS]]&lt;br /&gt;
# [[Apache Airflow]]&lt;br /&gt;
# [[AzureRTOS]] : système d&#039;exploitation pour l&#039;Internet des Objets. démonstration sur [https://www.st.com/en/evaluation-tools/b-l475e-iot01a.html B-L475] à récupérer au fablab.&lt;br /&gt;
# Algorithmes et systèmes de vote électronique : vices et vertus.&lt;br /&gt;
# [[Normes et systèmes de signature électronique]]&lt;br /&gt;
# Database as a Microservice : [[HarperDB]]&lt;br /&gt;
# [[Underwater Wireless Communications]]&lt;br /&gt;
# [[TiDB]]&lt;br /&gt;
# [[Pantavisor Linux]]: A Framework for Building Containerized IoT Systems&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51674</id>
		<title>VT2021 TTS fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_TTS_fiche&amp;diff=51674"/>
		<updated>2021-12-13T08:31:15Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: Created page with &amp;quot;= TextToSpeech =  &amp;#039;&amp;#039;&amp;#039;COSOTTI Kévin (kevin.cosotti@etu.univ-grenoble-alpes.fr) - GRANGER Oscar (oscar.granger@etu.univ-grenoble-alpes.fr)&amp;#039;&amp;#039;&amp;#039;&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= TextToSpeech =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;COSOTTI Kévin ([[kevin.cosotti@etu.univ-grenoble-alpes.fr]]) - GRANGER Oscar ([[oscar.granger@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_CDN_fiche&amp;diff=51670</id>
		<title>VT2021 CDN fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_CDN_fiche&amp;diff=51670"/>
		<updated>2021-12-13T08:13:47Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= Content Delivery Network =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;ANDRIEUX Liam ([[liam.adnrieux@etu.univ-grenoble-alpes.fr]]) - REGOUIN Roman ([[roman.regouin@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Un &amp;quot;réseau de distribution de contenu&amp;quot; ou &amp;quot;Content Delivery Network&amp;quot; (CDN) est un réseau géographiquement distribué de serveurs proxy et de centre de données avec pour objectif de rendre hautement disponible la distribution de service relativement à l&#039;utilisateur. Il est constitué d’un serveur d&#039;origine (généralement l&#039;application) qui va injecter son contenu dans le réseau. Il est aussi constitué de serveurs périphériques (appelé PoP pour Point of Presence) déployés à plusieurs endroits géographiquement distincts, où les contenus sont répliqués et mis en cache au plus proche de l’utilisateur. Il comprend un mécanisme de routage qui permet de servir l’utilisateur avec le serveur périphérique le plus proche.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
L&#039;impact direct d&#039;un CDN est l&#039;amélioration de l&#039;expérience utilisateur en réduisant la latence entre l&#039;utilisateur et le contenu. Il permet aussi une meilleure mise à l&#039;échelle ainsi qu&#039;une meilleure résistance aux attaques DDoS (attaque par dénis de service distribué) notamment grâce à des filtres sur des protocoles en périphérie du réseau.&lt;br /&gt;
Il est à noter qu’un CDN peut représenter un certain nombre d&#039;inconvénients, entre autres les coûts supplémentaires qu’il peut engendrer ou la fuite de données potentiellement critique vers d’autres entreprises.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clefs :&#039;&#039;&#039; PoP, Serveur, DDoS, Réseau, Performance, Latence, Cache, Disponibilité, Mise à l’echelle.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
A Content Delivery Network (CDN) is a geographic distributed network of proxy servers and data centers whose main goal is to make the service distribution highly available relative to the end user. It is composed of an origin server (generally the application server) which will dispatch his resources in the network. It is also composed of peripheral servers (called PoP) deployed at multiple distincts geographical places. It includes a routing mechanism allowing the system to serve the end user with the closest peripheral server.  &lt;br /&gt;
&lt;br /&gt;
The direct impact of using a CDN is the improvement of user experience by reducing the latency between the user and the content. It also allows scalability and a better resistance to DDos attacks (Distributed denial of service attack) mainly with filters on protocole at the edge of the network.&lt;br /&gt;
It should be noted that a CDN can represent a number of cons, notably the additional costs it can produce or the loss of critical data to other companies&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Fonctionnement ==&lt;br /&gt;
=== Vue d&#039;ensemble ===&lt;br /&gt;
Un &amp;quot;réseau de distribution de contenu&amp;quot; ou &amp;quot;Content Delivery Network&amp;quot; (CDN) est un réseau géographiquement distribué de serveurs proxy et de centre de données avec pour objectif de rendre hautement disponible la distribution de service relativement à l&#039;utilisateur.&lt;br /&gt;
Il est  constitué de serveurs périphériques (PoP pour Point of Presence) déployés à plusieurs endroits géographiquement distincts, où les contenus sont répliqués et mis en cache au plus proche de l’utilisateur. Il est constitué d’un serveur d&#039;origine (généralement l&#039;application) qui va injecter son contenu dans le réseau. En cas d’une requête reçue par l’un de ses PoPs, s’il dispose du contenu demandé, alors on a un “Cache Hit” et le PoP délivre directement le contenu demandé. Dans le cas où il ne dispose pas du contenu demandé, dans le cas d’un contenu dynamique ou juste pas encore mis en cache, alors on a un “Cache Miss”. Il transfère la requête au serveur origine puis si possible il met en cache la réponse avant de l’envoyer à l’utilisateur. Dans certains cas, les Pops sont indépendants les uns des autres et seul le pop ayant fait la requête a mis en cache la réponse. Dans d’autres cas, la réponse est distribuée entre plusieurs PoPs, soit par groupe de PoPs localisé dans une même zone géographique, soit sur tous les PoPs d’un CDN.&lt;br /&gt;
&lt;br /&gt;
Les serveurs PoPs doivent respecter les réglementations du pays où ils sont installés et cela peut parfois devenir très contraignant quand on essaye de mettre en place son propre CDN. C’est pourquoi des services de CDN existent et qui s&#039;occupent de placer leur serveurs PoP sur tous les continents tout en respectant les réglementations en vigueur. &lt;br /&gt;
Il comprend aussi un mécanisme de routage qui permet de servir l’utilisateur avec le serveur périphérique le plus proche pour optimiser les performances du CDN.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Routage CDN===&lt;br /&gt;
&lt;br /&gt;
Pour mettre en place un CDN, il faut mettre en place un ou plusieurs record Cname auprès de son fournisseur DNS (Domain Name System) pour que le routage vers le nom de domaine de notre serveur passe par le CDN. Un fichier Cname est un fichier permettant d’indiquer un sous-domaine. Cela permet de rediriger les requêtes vers le nom de domaine du fournisseur CDN. Puis auprès du fournisseur CDN, il faut indiquer via un record A pour indiquer l’adresse de notre serveur quand il y’a un cache Miss&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Type de CDN===&lt;br /&gt;
&lt;br /&gt;
*&#039;&#039;&#039;Push CDN&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
Dans un CDN de type push, c’est l’application qui va charger de son propre chef du contenu sur les CDN. Par exemple pour le déploiement d’une nouvelle mise à jour d’un logiciel, le(s) serveur(s) d&#039;origine va charger la mise à jour dans les PoP.&lt;br /&gt;
&lt;br /&gt;
[[File:CDNPush.jpg|CDN Push Type]]    &lt;br /&gt;
&lt;br /&gt;
*&#039;&#039;&#039;Pull CDN&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
Dans un CDN de type pull, c’est le CDN qui va demander (du à une requête d’un client) au serveur de l’application du contenu pour ensuite le mettre en cache.&lt;br /&gt;
    &lt;br /&gt;
[[File:CDNPull.jpg|CDN Pull Type]]&lt;br /&gt;
&lt;br /&gt;
== Utilité ==&lt;br /&gt;
&lt;br /&gt;
=== Rapidité de Distribution ===&lt;br /&gt;
&lt;br /&gt;
On a beau optimiser les performances de notre serveur au maximum pour minimiser le temps de traitement pour une requête utilisateur, quoi qu’il arrive on est limité par les contraintes que nous impose le monde physique. Nos informations ne pourront jamais atteindre nos utilisateurs plus vite que la vitesse de la lumière (299 792 458 m/s).&lt;br /&gt;
C’est l’un des problèmes que le CDN permet de contourner en fournissant le contenu au plus proche des utilisateurs et permet de réduire drastiquement la latence entre les utilisateurs et le contenu désiré.&lt;br /&gt;
&lt;br /&gt;
=== Réduction de la Charge Serveur et Haute Disponibilité ===&lt;br /&gt;
&lt;br /&gt;
De manière indirecte, le CDN permet par son fonctionnement de réduire la charge du serveur. En mettant en cache le contenu dans les serveurs périphériques, cela permet de filtrer une grande partie des requêtes qui sont directement délivrées par le CDN. &lt;br /&gt;
&lt;br /&gt;
De la même manière, cela permet d’augmenter la disponibilité du serveur d’origine. Celui-ci n’étant que très rarement chargé, il n’y a que peu de risques de saturation du serveur d’origine et garantit de ce fait une meilleure disponibilité.&lt;br /&gt;
Un point qui peut être souligné, il arrive parfois que grâce à un CDN, un site puisse toujours être accessible malgré le fait que le serveur soit tombé en panne. Cela peut s’expliquer par le fait que la majorité du contenu du serveur d’origine soit encore stocké dans le CDN ce qui permet de livrer le contenu aux utilisateurs. Ceux-ci ne sont donc même pas au courant que le serveur est en panne.&lt;br /&gt;
&lt;br /&gt;
Enfin, en cas d’un pic d’affluence de visiteurs, qui peut parfois ressembler à une attaque DDos, le CDN permet d’encaisser cette affluence avec la répartition géographique des visiteurs sur les différents serveurs périphériques.&lt;br /&gt;
&lt;br /&gt;
=== Sécurité ===&lt;br /&gt;
De manière générale, les services de CDN garantissent l’usage des certificats SSL utilisés pour les requêtes HTTPs. Cependant, la majorité des services de CDN propose davantage de sécurité notamment contre les attaques DDos (attaque par dénis de service distribué).&lt;br /&gt;
De par son architecture qui met en cache le contenu et ne permet pas de liaison directe avec le serveur d’origine, un CDN permet naturellement une première protection contre les attaques de type DDos en répartissant la charge de l’attaque sur l’ensemble des serveurs périphériques. Leur cache permet de livrer rapidement les requêtes et de contenir la haute fréquence de requête des attaques. Cependant, dans le cas de très grosse attaque DDos, cela ne peut pas suffire. C’est pourquoi les services de CDN appliquent des filtres sur les couches 3/4 (UDP,ICMP,SYN) et la couche 7 en inspectant le contenu HTTP pour limiter l’impact des attaques DDos.&lt;br /&gt;
&lt;br /&gt;
== Limitations ==&lt;br /&gt;
&lt;br /&gt;
La mise en place d’un CDN ajoute une complexité non négligeable.&lt;br /&gt;
&lt;br /&gt;
=== Coût ===&lt;br /&gt;
&lt;br /&gt;
Suivant le fournisseur, les prix peuvent varier. Des fournisseurs comme CloudFlare donnent accès aux fonctionnalités de base gratuitement. Pour des fonctionnalités supplémentaires c’est un paiement fixe par mois (20~200 USD/mois). Nous avons aussi Azure CDN qui lui opte pour une facturation “pay as you go” (0,081 USD/Go).&lt;br /&gt;
&lt;br /&gt;
=== Perte de Contrôle ===&lt;br /&gt;
&lt;br /&gt;
Les CDN sont proposés par des tiers, de ce fait, on accorde sa confiance. Les données stockées sur les CDN peuvent ne plus être entièrement privées.&lt;br /&gt;
De plus, les infrastructures sont aussi gérées par ces tiers, nous n&#039;avons donc aucun contrôle dessus, les CDN peuvent tomber en panne et nous devons faire confiance au tiers pour qu’ils soient restaurés.&lt;br /&gt;
Suivant les plan de tarifications, le contrôle des données peut varier, par exemple sur “CloudFlare”, le plan gratuit permet seulement de vider le cache du CDN et non de visualiser ce qui en cache.&lt;br /&gt;
&lt;br /&gt;
=== Localisation des Services ===&lt;br /&gt;
&lt;br /&gt;
La plupart des CDNs route les utilisateurs vers le PoP le proche. Cependant dans le cas où notre application d’origine est sur un serveur en France et que le fournisseur de CDN n’a pas de PoP en France mais seulement en Chine, un utilisateur en france sera redirigé vers le Pop de Chine ce qui entraînera de la latence. Si nous avions pas de CDN en place, l’utilisateur aurait été dirigé directement vers le serveur de l’application qui est en france.&lt;br /&gt;
&lt;br /&gt;
== Mettre en place ==&lt;br /&gt;
&lt;br /&gt;
Voir la documentation du fournisseur ;)&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_CDN_fiche&amp;diff=51669</id>
		<title>VT2021 CDN fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_CDN_fiche&amp;diff=51669"/>
		<updated>2021-12-13T08:13:09Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= Content Delivery Network =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;ANDRIEUX dit Liam ([[liam.adnrieux@etu.univ-grenoble-alpes.fr]]) - REGOUIN Roman ([[roman.regouin@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Un &amp;quot;réseau de distribution de contenu&amp;quot; ou &amp;quot;Content Delivery Network&amp;quot; (CDN) est un réseau géographiquement distribué de serveurs proxy et de centre de données avec pour objectif de rendre hautement disponible la distribution de service relativement à l&#039;utilisateur. Il est constitué d’un serveur d&#039;origine (généralement l&#039;application) qui va injecter son contenu dans le réseau. Il est aussi constitué de serveurs périphériques (appelé PoP pour Point of Presence) déployés à plusieurs endroits géographiquement distincts, où les contenus sont répliqués et mis en cache au plus proche de l’utilisateur. Il comprend un mécanisme de routage qui permet de servir l’utilisateur avec le serveur périphérique le plus proche.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
L&#039;impact direct d&#039;un CDN est l&#039;amélioration de l&#039;expérience utilisateur en réduisant la latence entre l&#039;utilisateur et le contenu. Il permet aussi une meilleure mise à l&#039;échelle ainsi qu&#039;une meilleure résistance aux attaques DDoS (attaque par dénis de service distribué) notamment grâce à des filtres sur des protocoles en périphérie du réseau.&lt;br /&gt;
Il est à noter qu’un CDN peut représenter un certain nombre d&#039;inconvénients, entre autres les coûts supplémentaires qu’il peut engendrer ou la fuite de données potentiellement critique vers d’autres entreprises.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clefs :&#039;&#039;&#039; PoP, Serveur, DDoS, Réseau, Performance, Latence, Cache, Disponibilité, Mise à l’echelle.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
A Content Delivery Network (CDN) is a geographic distributed network of proxy servers and data centers whose main goal is to make the service distribution highly available relative to the end user. It is composed of an origin server (generally the application server) which will dispatch his resources in the network. It is also composed of peripheral servers (called PoP) deployed at multiple distincts geographical places. It includes a routing mechanism allowing the system to serve the end user with the closest peripheral server.  &lt;br /&gt;
&lt;br /&gt;
The direct impact of using a CDN is the improvement of user experience by reducing the latency between the user and the content. It also allows scalability and a better resistance to DDos attacks (Distributed denial of service attack) mainly with filters on protocole at the edge of the network.&lt;br /&gt;
It should be noted that a CDN can represent a number of cons, notably the additional costs it can produce or the loss of critical data to other companies&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Fonctionnement ==&lt;br /&gt;
=== Vue d&#039;ensemble ===&lt;br /&gt;
Un &amp;quot;réseau de distribution de contenu&amp;quot; ou &amp;quot;Content Delivery Network&amp;quot; (CDN) est un réseau géographiquement distribué de serveurs proxy et de centre de données avec pour objectif de rendre hautement disponible la distribution de service relativement à l&#039;utilisateur.&lt;br /&gt;
Il est  constitué de serveurs périphériques (PoP pour Point of Presence) déployés à plusieurs endroits géographiquement distincts, où les contenus sont répliqués et mis en cache au plus proche de l’utilisateur. Il est constitué d’un serveur d&#039;origine (généralement l&#039;application) qui va injecter son contenu dans le réseau. En cas d’une requête reçue par l’un de ses PoPs, s’il dispose du contenu demandé, alors on a un “Cache Hit” et le PoP délivre directement le contenu demandé. Dans le cas où il ne dispose pas du contenu demandé, dans le cas d’un contenu dynamique ou juste pas encore mis en cache, alors on a un “Cache Miss”. Il transfère la requête au serveur origine puis si possible il met en cache la réponse avant de l’envoyer à l’utilisateur. Dans certains cas, les Pops sont indépendants les uns des autres et seul le pop ayant fait la requête a mis en cache la réponse. Dans d’autres cas, la réponse est distribuée entre plusieurs PoPs, soit par groupe de PoPs localisé dans une même zone géographique, soit sur tous les PoPs d’un CDN.&lt;br /&gt;
&lt;br /&gt;
Les serveurs PoPs doivent respecter les réglementations du pays où ils sont installés et cela peut parfois devenir très contraignant quand on essaye de mettre en place son propre CDN. C’est pourquoi des services de CDN existent et qui s&#039;occupent de placer leur serveurs PoP sur tous les continents tout en respectant les réglementations en vigueur. &lt;br /&gt;
Il comprend aussi un mécanisme de routage qui permet de servir l’utilisateur avec le serveur périphérique le plus proche pour optimiser les performances du CDN.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Routage CDN===&lt;br /&gt;
&lt;br /&gt;
Pour mettre en place un CDN, il faut mettre en place un ou plusieurs record Cname auprès de son fournisseur DNS (Domain Name System) pour que le routage vers le nom de domaine de notre serveur passe par le CDN. Un fichier Cname est un fichier permettant d’indiquer un sous-domaine. Cela permet de rediriger les requêtes vers le nom de domaine du fournisseur CDN. Puis auprès du fournisseur CDN, il faut indiquer via un record A pour indiquer l’adresse de notre serveur quand il y’a un cache Miss&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Type de CDN===&lt;br /&gt;
&lt;br /&gt;
*&#039;&#039;&#039;Push CDN&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
Dans un CDN de type push, c’est l’application qui va charger de son propre chef du contenu sur les CDN. Par exemple pour le déploiement d’une nouvelle mise à jour d’un logiciel, le(s) serveur(s) d&#039;origine va charger la mise à jour dans les PoP.&lt;br /&gt;
&lt;br /&gt;
[[File:CDNPush.jpg|CDN Push Type]]    &lt;br /&gt;
&lt;br /&gt;
*&#039;&#039;&#039;Pull CDN&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
Dans un CDN de type pull, c’est le CDN qui va demander (du à une requête d’un client) au serveur de l’application du contenu pour ensuite le mettre en cache.&lt;br /&gt;
    &lt;br /&gt;
[[File:CDNPull.jpg|CDN Pull Type]]&lt;br /&gt;
&lt;br /&gt;
== Utilité ==&lt;br /&gt;
&lt;br /&gt;
=== Rapidité de Distribution ===&lt;br /&gt;
&lt;br /&gt;
On a beau optimiser les performances de notre serveur au maximum pour minimiser le temps de traitement pour une requête utilisateur, quoi qu’il arrive on est limité par les contraintes que nous impose le monde physique. Nos informations ne pourront jamais atteindre nos utilisateurs plus vite que la vitesse de la lumière (299 792 458 m/s).&lt;br /&gt;
C’est l’un des problèmes que le CDN permet de contourner en fournissant le contenu au plus proche des utilisateurs et permet de réduire drastiquement la latence entre les utilisateurs et le contenu désiré.&lt;br /&gt;
&lt;br /&gt;
=== Réduction de la Charge Serveur et Haute Disponibilité ===&lt;br /&gt;
&lt;br /&gt;
De manière indirecte, le CDN permet par son fonctionnement de réduire la charge du serveur. En mettant en cache le contenu dans les serveurs périphériques, cela permet de filtrer une grande partie des requêtes qui sont directement délivrées par le CDN. &lt;br /&gt;
&lt;br /&gt;
De la même manière, cela permet d’augmenter la disponibilité du serveur d’origine. Celui-ci n’étant que très rarement chargé, il n’y a que peu de risques de saturation du serveur d’origine et garantit de ce fait une meilleure disponibilité.&lt;br /&gt;
Un point qui peut être souligné, il arrive parfois que grâce à un CDN, un site puisse toujours être accessible malgré le fait que le serveur soit tombé en panne. Cela peut s’expliquer par le fait que la majorité du contenu du serveur d’origine soit encore stocké dans le CDN ce qui permet de livrer le contenu aux utilisateurs. Ceux-ci ne sont donc même pas au courant que le serveur est en panne.&lt;br /&gt;
&lt;br /&gt;
Enfin, en cas d’un pic d’affluence de visiteurs, qui peut parfois ressembler à une attaque DDos, le CDN permet d’encaisser cette affluence avec la répartition géographique des visiteurs sur les différents serveurs périphériques.&lt;br /&gt;
&lt;br /&gt;
=== Sécurité ===&lt;br /&gt;
De manière générale, les services de CDN garantissent l’usage des certificats SSL utilisés pour les requêtes HTTPs. Cependant, la majorité des services de CDN propose davantage de sécurité notamment contre les attaques DDos (attaque par dénis de service distribué).&lt;br /&gt;
De par son architecture qui met en cache le contenu et ne permet pas de liaison directe avec le serveur d’origine, un CDN permet naturellement une première protection contre les attaques de type DDos en répartissant la charge de l’attaque sur l’ensemble des serveurs périphériques. Leur cache permet de livrer rapidement les requêtes et de contenir la haute fréquence de requête des attaques. Cependant, dans le cas de très grosse attaque DDos, cela ne peut pas suffire. C’est pourquoi les services de CDN appliquent des filtres sur les couches 3/4 (UDP,ICMP,SYN) et la couche 7 en inspectant le contenu HTTP pour limiter l’impact des attaques DDos.&lt;br /&gt;
&lt;br /&gt;
== Limitations ==&lt;br /&gt;
&lt;br /&gt;
La mise en place d’un CDN ajoute une complexité non négligeable.&lt;br /&gt;
&lt;br /&gt;
=== Coût ===&lt;br /&gt;
&lt;br /&gt;
Suivant le fournisseur, les prix peuvent varier. Des fournisseurs comme CloudFlare donnent accès aux fonctionnalités de base gratuitement. Pour des fonctionnalités supplémentaires c’est un paiement fixe par mois (20~200 USD/mois). Nous avons aussi Azure CDN qui lui opte pour une facturation “pay as you go” (0,081 USD/Go).&lt;br /&gt;
&lt;br /&gt;
=== Perte de Contrôle ===&lt;br /&gt;
&lt;br /&gt;
Les CDN sont proposés par des tiers, de ce fait, on accorde sa confiance. Les données stockées sur les CDN peuvent ne plus être entièrement privées.&lt;br /&gt;
De plus, les infrastructures sont aussi gérées par ces tiers, nous n&#039;avons donc aucun contrôle dessus, les CDN peuvent tomber en panne et nous devons faire confiance au tiers pour qu’ils soient restaurés.&lt;br /&gt;
Suivant les plan de tarifications, le contrôle des données peut varier, par exemple sur “CloudFlare”, le plan gratuit permet seulement de vider le cache du CDN et non de visualiser ce qui en cache.&lt;br /&gt;
&lt;br /&gt;
=== Localisation des Services ===&lt;br /&gt;
&lt;br /&gt;
La plupart des CDNs route les utilisateurs vers le PoP le proche. Cependant dans le cas où notre application d’origine est sur un serveur en France et que le fournisseur de CDN n’a pas de PoP en France mais seulement en Chine, un utilisateur en france sera redirigé vers le Pop de Chine ce qui entraînera de la latence. Si nous avions pas de CDN en place, l’utilisateur aurait été dirigé directement vers le serveur de l’application qui est en france.&lt;br /&gt;
&lt;br /&gt;
== Mettre en place ==&lt;br /&gt;
&lt;br /&gt;
Voir la documentation du fournisseur ;)&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
	<entry>
		<id>https://air.imag.fr/index.php?title=VT2021_CDN_fiche&amp;diff=51668</id>
		<title>VT2021 CDN fiche</title>
		<link rel="alternate" type="text/html" href="https://air.imag.fr/index.php?title=VT2021_CDN_fiche&amp;diff=51668"/>
		<updated>2021-12-13T08:12:28Z</updated>

		<summary type="html">&lt;p&gt;Kevin.Cosotti: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;= Content Delivery Network =&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;ANDRIEUX Liam ([[liam.adnrieux@etu.univ-grenoble-alpes.fr]]) - REGOUIN Roman ([[roman.regouin@etu.univ-grenoble-alpes.fr]])&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
== Résumé ==&lt;br /&gt;
=== Résumé ===&lt;br /&gt;
Un &amp;quot;réseau de distribution de contenu&amp;quot; ou &amp;quot;Content Delivery Network&amp;quot; (CDN) est un réseau géographiquement distribué de serveurs proxy et de centre de données avec pour objectif de rendre hautement disponible la distribution de service relativement à l&#039;utilisateur. Il est constitué d’un serveur d&#039;origine (généralement l&#039;application) qui va injecter son contenu dans le réseau. Il est aussi constitué de serveurs périphériques (appelé PoP pour Point of Presence) déployés à plusieurs endroits géographiquement distincts, où les contenus sont répliqués et mis en cache au plus proche de l’utilisateur. Il comprend un mécanisme de routage qui permet de servir l’utilisateur avec le serveur périphérique le plus proche.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
L&#039;impact direct d&#039;un CDN est l&#039;amélioration de l&#039;expérience utilisateur en réduisant la latence entre l&#039;utilisateur et le contenu. Il permet aussi une meilleure mise à l&#039;échelle ainsi qu&#039;une meilleure résistance aux attaques DDoS (attaque par dénis de service distribué) notamment grâce à des filtres sur des protocoles en périphérie du réseau.&lt;br /&gt;
Il est à noter qu’un CDN peut représenter un certain nombre d&#039;inconvénients, entre autres les coûts supplémentaires qu’il peut engendrer ou la fuite de données potentiellement critique vers d’autres entreprises.&lt;br /&gt;
&lt;br /&gt;
&#039;&#039;&#039;Mots clefs :&#039;&#039;&#039; PoP, Serveur, DDoS, Réseau, Performance, Latence, Cache, Disponibilité, Mise à l’echelle.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Abstract ===&lt;br /&gt;
A Content Delivery Network (CDN) is a geographic distributed network of proxy servers and data centers whose main goal is to make the service distribution highly available relative to the end user. It is composed of an origin server (generally the application server) which will dispatch his resources in the network. It is also composed of peripheral servers (called PoP) deployed at multiple distincts geographical places. It includes a routing mechanism allowing the system to serve the end user with the closest peripheral server.  &lt;br /&gt;
&lt;br /&gt;
The direct impact of using a CDN is the improvement of user experience by reducing the latency between the user and the content. It also allows scalability and a better resistance to DDos attacks (Distributed denial of service attack) mainly with filters on protocole at the edge of the network.&lt;br /&gt;
It should be noted that a CDN can represent a number of cons, notably the additional costs it can produce or the loss of critical data to other companies&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Fonctionnement ==&lt;br /&gt;
=== Vue d&#039;ensemble ===&lt;br /&gt;
Un &amp;quot;réseau de distribution de contenu&amp;quot; ou &amp;quot;Content Delivery Network&amp;quot; (CDN) est un réseau géographiquement distribué de serveurs proxy et de centre de données avec pour objectif de rendre hautement disponible la distribution de service relativement à l&#039;utilisateur.&lt;br /&gt;
Il est  constitué de serveurs périphériques (PoP pour Point of Presence) déployés à plusieurs endroits géographiquement distincts, où les contenus sont répliqués et mis en cache au plus proche de l’utilisateur. Il est constitué d’un serveur d&#039;origine (généralement l&#039;application) qui va injecter son contenu dans le réseau. En cas d’une requête reçue par l’un de ses PoPs, s’il dispose du contenu demandé, alors on a un “Cache Hit” et le PoP délivre directement le contenu demandé. Dans le cas où il ne dispose pas du contenu demandé, dans le cas d’un contenu dynamique ou juste pas encore mis en cache, alors on a un “Cache Miss”. Il transfère la requête au serveur origine puis si possible il met en cache la réponse avant de l’envoyer à l’utilisateur. Dans certains cas, les Pops sont indépendants les uns des autres et seul le pop ayant fait la requête a mis en cache la réponse. Dans d’autres cas, la réponse est distribuée entre plusieurs PoPs, soit par groupe de PoPs localisé dans une même zone géographique, soit sur tous les PoPs d’un CDN.&lt;br /&gt;
&lt;br /&gt;
Les serveurs PoPs doivent respecter les réglementations du pays où ils sont installés et cela peut parfois devenir très contraignant quand on essaye de mettre en place son propre CDN. C’est pourquoi des services de CDN existent et qui s&#039;occupent de placer leur serveurs PoP sur tous les continents tout en respectant les réglementations en vigueur. &lt;br /&gt;
Il comprend aussi un mécanisme de routage qui permet de servir l’utilisateur avec le serveur périphérique le plus proche pour optimiser les performances du CDN.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Routage CDN===&lt;br /&gt;
&lt;br /&gt;
Pour mettre en place un CDN, il faut mettre en place un ou plusieurs record Cname auprès de son fournisseur DNS (Domain Name System) pour que le routage vers le nom de domaine de notre serveur passe par le CDN. Un fichier Cname est un fichier permettant d’indiquer un sous-domaine. Cela permet de rediriger les requêtes vers le nom de domaine du fournisseur CDN. Puis auprès du fournisseur CDN, il faut indiquer via un record A pour indiquer l’adresse de notre serveur quand il y’a un cache Miss&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Type de CDN===&lt;br /&gt;
&lt;br /&gt;
*&#039;&#039;&#039;Push CDN&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
Dans un CDN de type push, c’est l’application qui va charger de son propre chef du contenu sur les CDN. Par exemple pour le déploiement d’une nouvelle mise à jour d’un logiciel, le(s) serveur(s) d&#039;origine va charger la mise à jour dans les PoP.&lt;br /&gt;
&lt;br /&gt;
[[File:CDNPush.jpg|CDN Push Type]]    &lt;br /&gt;
&lt;br /&gt;
*&#039;&#039;&#039;Pull CDN&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
Dans un CDN de type pull, c’est le CDN qui va demander (du à une requête d’un client) au serveur de l’application du contenu pour ensuite le mettre en cache.&lt;br /&gt;
    &lt;br /&gt;
[[File:CDNPull.jpg|CDN Pull Type]]&lt;br /&gt;
&lt;br /&gt;
== Utilité ==&lt;br /&gt;
&lt;br /&gt;
=== Rapidité de Distribution ===&lt;br /&gt;
&lt;br /&gt;
On a beau optimiser les performances de notre serveur au maximum pour minimiser le temps de traitement pour une requête utilisateur, quoi qu’il arrive on est limité par les contraintes que nous impose le monde physique. Nos informations ne pourront jamais atteindre nos utilisateurs plus vite que la vitesse de la lumière (299 792 458 m/s).&lt;br /&gt;
C’est l’un des problèmes que le CDN permet de contourner en fournissant le contenu au plus proche des utilisateurs et permet de réduire drastiquement la latence entre les utilisateurs et le contenu désiré.&lt;br /&gt;
&lt;br /&gt;
=== Réduction de la Charge Serveur et Haute Disponibilité ===&lt;br /&gt;
&lt;br /&gt;
De manière indirecte, le CDN permet par son fonctionnement de réduire la charge du serveur. En mettant en cache le contenu dans les serveurs périphériques, cela permet de filtrer une grande partie des requêtes qui sont directement délivrées par le CDN. &lt;br /&gt;
&lt;br /&gt;
De la même manière, cela permet d’augmenter la disponibilité du serveur d’origine. Celui-ci n’étant que très rarement chargé, il n’y a que peu de risques de saturation du serveur d’origine et garantit de ce fait une meilleure disponibilité.&lt;br /&gt;
Un point qui peut être souligné, il arrive parfois que grâce à un CDN, un site puisse toujours être accessible malgré le fait que le serveur soit tombé en panne. Cela peut s’expliquer par le fait que la majorité du contenu du serveur d’origine soit encore stocké dans le CDN ce qui permet de livrer le contenu aux utilisateurs. Ceux-ci ne sont donc même pas au courant que le serveur est en panne.&lt;br /&gt;
&lt;br /&gt;
Enfin, en cas d’un pic d’affluence de visiteurs, qui peut parfois ressembler à une attaque DDos, le CDN permet d’encaisser cette affluence avec la répartition géographique des visiteurs sur les différents serveurs périphériques.&lt;br /&gt;
&lt;br /&gt;
=== Sécurité ===&lt;br /&gt;
De manière générale, les services de CDN garantissent l’usage des certificats SSL utilisés pour les requêtes HTTPs. Cependant, la majorité des services de CDN propose davantage de sécurité notamment contre les attaques DDos (attaque par dénis de service distribué).&lt;br /&gt;
De par son architecture qui met en cache le contenu et ne permet pas de liaison directe avec le serveur d’origine, un CDN permet naturellement une première protection contre les attaques de type DDos en répartissant la charge de l’attaque sur l’ensemble des serveurs périphériques. Leur cache permet de livrer rapidement les requêtes et de contenir la haute fréquence de requête des attaques. Cependant, dans le cas de très grosse attaque DDos, cela ne peut pas suffire. C’est pourquoi les services de CDN appliquent des filtres sur les couches 3/4 (UDP,ICMP,SYN) et la couche 7 en inspectant le contenu HTTP pour limiter l’impact des attaques DDos.&lt;br /&gt;
&lt;br /&gt;
== Limitations ==&lt;br /&gt;
&lt;br /&gt;
La mise en place d’un CDN ajoute une complexité non négligeable.&lt;br /&gt;
&lt;br /&gt;
=== Coût ===&lt;br /&gt;
&lt;br /&gt;
Suivant le fournisseur, les prix peuvent varier. Des fournisseurs comme CloudFlare donnent accès aux fonctionnalités de base gratuitement. Pour des fonctionnalités supplémentaires c’est un paiement fixe par mois (20~200 USD/mois). Nous avons aussi Azure CDN qui lui opte pour une facturation “pay as you go” (0,081 USD/Go).&lt;br /&gt;
&lt;br /&gt;
=== Perte de Contrôle ===&lt;br /&gt;
&lt;br /&gt;
Les CDN sont proposés par des tiers, de ce fait, on accorde sa confiance. Les données stockées sur les CDN peuvent ne plus être entièrement privées.&lt;br /&gt;
De plus, les infrastructures sont aussi gérées par ces tiers, nous n&#039;avons donc aucun contrôle dessus, les CDN peuvent tomber en panne et nous devons faire confiance au tiers pour qu’ils soient restaurés.&lt;br /&gt;
Suivant les plan de tarifications, le contrôle des données peut varier, par exemple sur “CloudFlare”, le plan gratuit permet seulement de vider le cache du CDN et non de visualiser ce qui en cache.&lt;br /&gt;
&lt;br /&gt;
=== Localisation des Services ===&lt;br /&gt;
&lt;br /&gt;
La plupart des CDNs route les utilisateurs vers le PoP le proche. Cependant dans le cas où notre application d’origine est sur un serveur en France et que le fournisseur de CDN n’a pas de PoP en France mais seulement en Chine, un utilisateur en france sera redirigé vers le Pop de Chine ce qui entraînera de la latence. Si nous avions pas de CDN en place, l’utilisateur aurait été dirigé directement vers le serveur de l’application qui est en france.&lt;br /&gt;
&lt;br /&gt;
== Mettre en place ==&lt;br /&gt;
&lt;br /&gt;
Voir la documentation du fournisseur ;)&lt;/div&gt;</summary>
		<author><name>Kevin.Cosotti</name></author>
	</entry>
</feed>