VT2015/Speech Recognition

From air
Jump to navigation Jump to search

Présentation

  • Enseignants : Georges-Pierre Bonneau, Didier Donsez ([1])
  • Sujet : Speech recognition
  • Auteur : Aissanou Sarah
  • Date: 09 octobre 2015

Mots clés

Reconnaissance de la parole, traitement de la parole, traitement du signal, langage naturel

Résumé

La reconnaissance automatique de la parole consiste à transcrire un message oral prononcé en langage naturel, sous la forme d'un texte. Cette technique voit son utilité dans divers applications tels que le E-commerce et le dialogue Homme-machine (par exemple la dictée vocale). Elle a vu le monde après la seconde guerre mondiale et depuis ne cesse d'être perfectionnée notamment grâce à l'émancipation de l'informatique.

Abstract

The principle of speech recognition is to transcribe an oral message spoken in natural language, in the form of a text. This technique has various applications such as E-commerce and human-machine dialogue. It all started after the Second World War and since continues to be improved thanks to the empowerment of IT.

Synthèse

Définitions et domaines d'applications

La reconnaissance de la parole n'est pas synonyme de reconnaissance vocale. En effet la première consiste à convertir un discours émis par voie orale dans un langage naturel en un texte, et la seconde consiste à reconnaître une personne uniquement par sa voix.

Les systèmes de reconnaissance vocale permettent à l'utilisateur un gain de temps considérable. En effet si une personne peut taper jusqu'à 90 mots par minutes au clavier, les systèmes de reconnaissance vocale peuvent aller jusqu'à 135 mots par minute. Ces systèmes sont de plus en plus utilisés dans divers domaines:

  • La bureautique : logiciels de dictée vocale, pilotage de l’environnement, dictée de messages électroniques
  • Les commandes vocales sur smartphones
  • Les services de télécommunication: renseignements par commande vocale via le téléphone (séances cinéma, annuaires, renseignements...etc)
  • Le E-commerce
  • la transcription automatique
  • Les services Web: remplissage de formulaires par la voix…
  • Les bornes vocales (sur site) : renseignements touristiques, achat tickets transport (SNCF)
  • L'enseignement des langues : évaluation de la prononciation
  • Les transports : commande vocale pour l’aide au pilotage
  • l’indexation de documents multimédias
  • L'aide aux handicapés : saisie de données à la voix, commandes vocales (ouverture porte, contrôle des équipements au domicile)
  • L'archivage & recherche d’informations : transcription automatique de documents radio ou télédiffusés, recherche d’informations dans des BD audiovisuelles

Historiques de la reconnaissance de la parole

Les travaux sur la reconnaissance de la parole datent du début du xxe siècle mais Davis, Biddulph et Balashek furent les premiers ingénieurs à développer un système de reconnaissance de parole, en 1952. Ce système électronique conçu dans les laboratoires Bell Labs se limitait à reconnaître quelques chiffres. Cette nouvelle technologie a inspiré de nombreux chercheurs et c'est en 1972 qu'un système de reconnaissance de parole est commercialisé pour la première fois. Développé par la société Threshold Technologies, le VIP100 avait une capacité limitée à 32 mots. Moins de 15 plus tard, en 1985, les premiers systèmes de reconnaissance de parole ayant une capacité de plusieurs milliers de mots voient le jour, se rapprochant ainsi de la taille du vocabulaire de l'être humain (entre 10 000 et 150 000 mots).

Le principe de la reconnaissance de la parole

Le principe de fonctionnement de la reconnaissance de la parole est le suivant:

La parole est tout d'abord captée dans un microphone. Ce signal est ensuite numérisé et paramétré par une technique d'analyse fréquentielle utilisant la transformée de Fourier grâce à un convertisseur analogique-numérique. Une association est ensuite réalisée entre les segments élémentaires de la parole et les éléments lexicaux. Pour cela il y a deux algorithmes possibles. Elle peut faire appel à une modélisation statistique par modèles de Markov cachés ([2]) et/ou par réseaux de neurones artificiels ([3]). Une correspondance de pattern matching est ensuite réalisée par l'algorithme de déformation temporelle dynamique. Il s'agit ici de la concaténation des modèles précédemment effectués afin de reconstituer la phrase la plus probable.

Exemples de systèmes de reconnaissance de la parole

Les difficultés