Fiche de synthèse: Difference between revisions

From air
Jump to navigation Jump to search
No edit summary
No edit summary
Line 41: Line 41:
sont donc prévus pour un traitement correct des expressions non exclusivement alphabétiques telles que les dates, les chiffres, ou encore les adresses email.<br/>
sont donc prévus pour un traitement correct des expressions non exclusivement alphabétiques telles que les dates, les chiffres, ou encore les adresses email.<br/>
Il est à noter qu'au vu du nombre de types distincts d'expressions non alphabétiques pouvant se trouver dans un texte, la phase de formatage s'appuie sur un ensemble disparate de traitements, ensemble, qui de plus, est en constante évolution à mesure de l'apparition de nouveaux types (les adresses email n'étaient par exemple pas traités, lors de l'apparition de la synthèse vocale).<br/>
Il est à noter qu'au vu du nombre de types distincts d'expressions non alphabétiques pouvant se trouver dans un texte, la phase de formatage s'appuie sur un ensemble disparate de traitements, ensemble, qui de plus, est en constante évolution à mesure de l'apparition de nouveaux types (les adresses email n'étaient par exemple pas traités, lors de l'apparition de la synthèse vocale).<br/>
Une étape préliminaire est effectuée avant de convertir une chaîne non alphabétique en chaîne alphabétique. Cette étape consiste à segmenter chaque chaîne du texte en entrée en sous-chaînes de homogènes selon trois types : numérique, alphabétique, et un troisième type regroupant toutes les chaînes n'appartenant à aucun des deux précédents types.<br/>
Avant
Une fois la segmentation effectuée, les sous-chaînes sont regroupées dans le but de constituer un item dont le type est connu du système.<br/>
Par exemple, la chaîne 13h15 sera d'abord segmentée en 13 h 15, puis sera regroupée pour constituer l'item (13h15) car le système aura reconnu une suite de sous-chaînes constituant un élèmént de type horaire.<br/><br/>

Revision as of 20:35, 7 November 2013

Présentation

  • Enseignants : Georges-Pierre Bonneau, Didier Donsez (EA2013)
  • Auteur : Lotfi Manseur <Lotfi.Manseur@e.ujf-grenoble.fr>
  • Télécharger Présentation

Abstract

Speech synthesis is a technique whose purpose is the artificial production of human speech. This practice is mainly dedicated to firms which need to automate voice interaction with their customers.
Such a technique involve some treatments on the entry text, formatting, labeling, and phonetization in order to produce the correct pronounciation of the whole text. Other treatments are made on the phonemes associated to each word in order to get a voice similar to a human voice by means of the prozody step.

Keywords

formating, labeling, phoneme, phonetization, prozody.

Résumé

La synthèse vocale est une technique ayant pour objectif la production parole à partir de n'importe quel texte. La synthèse vocale est essentiellement présente dans les domaines où le besoin d'automatiser une intéraction ou une communication vocale avec le client se fait ressentir.
La production vocale à partir d'un texte nécessite certains traitements sur le texte: le formatage, l'étiquetage, et la phonérétisation, dans le but d'obtenir la liste de phonèmes correspondant au texte en entrée. D'autres traitements, sont effectués sur les phonèmes produits afin d'obtenir une voix se rapprochant d'une voix humaine.

Mots-clés

formatage, étiquetage, phonème, phonétisation.

Synthèse

Motivations

La synthèse vocale répond essentiellement à un besoin de générer une voix humaine à partir d'un texte écrit dans une langue connue du système. Cette technique, dont la première génération date de 1965, s'est aujourd'hui développée et est utilisée dans dans différents domaines tels:

  • Les services d'annonce vocale.
  • Les systèmes d'assistance aux personnes malvoyantes.
  • Les services de réponse assurant une communication téléphonique, généralement dans le cas de services de vente.

Réalisation

La production de voix à partir d'un texte donné implique certains traitements à appliquer au texte, afin de permettre au système de produire la liste de phonèmes en sortie à partir de données normalisées.

Illustration des deux phases de traitement effectuées par le système: Traitements linguistiques, puis traitements prosodiques

Procédé de normalisation

Ainsi, le premier objectif est d'obtenir des données textuelles homogènes. Pour ce faire, la première étape consiste à ne traiter que des chaînes alphabétiques.
Le premier traitement, le formatage, permet de traiter le texte en entrée afin de transformer les chaînes de caractères présentes en chaînes alphabétiques. Des algorithmes sont donc prévus pour un traitement correct des expressions non exclusivement alphabétiques telles que les dates, les chiffres, ou encore les adresses email.
Il est à noter qu'au vu du nombre de types distincts d'expressions non alphabétiques pouvant se trouver dans un texte, la phase de formatage s'appuie sur un ensemble disparate de traitements, ensemble, qui de plus, est en constante évolution à mesure de l'apparition de nouveaux types (les adresses email n'étaient par exemple pas traités, lors de l'apparition de la synthèse vocale).
Une étape préliminaire est effectuée avant de convertir une chaîne non alphabétique en chaîne alphabétique. Cette étape consiste à segmenter chaque chaîne du texte en entrée en sous-chaînes de homogènes selon trois types : numérique, alphabétique, et un troisième type regroupant toutes les chaînes n'appartenant à aucun des deux précédents types.
Une fois la segmentation effectuée, les sous-chaînes sont regroupées dans le but de constituer un item dont le type est connu du système.
Par exemple, la chaîne 13h15 sera d'abord segmentée en 13 h 15, puis sera regroupée pour constituer l'item (13h15) car le système aura reconnu une suite de sous-chaînes constituant un élèmént de type horaire.