VT2015/Speech Recognition

From air
Jump to navigation Jump to search

Présentation

  • Enseignants : Georges-Pierre Bonneau, Didier Donsez (VT2015)
  • Sujet : Speech recognition
  • Auteur : Aissanou Sarah
  • Date: 09 octobre 2015

Mots clés

Systèmes de reconnaissance de la parole, traitement de la parole, traitement du signal, langage naturel

Résumé

La reconnaissance automatique de la parole consiste à transcrire un message oral prononcé en langage naturel, sous la forme d'un texte. Cette technique voit son utilité dans diverses applications tels que le E-commerce et le dialogue Homme-machine (par exemple la dictée vocale). Elle a vu le monde après la seconde guerre mondiale et depuis ne cesse d'être perfectionnée notamment grâce à l'émancipation de l'informatique.

Abstract

The principle of speech recognition is to transcribe an oral message spoken in natural language, in the form of a text. This technique has various applications such as E-commerce and human-machine dialogue. It all started after the Second World War and since continues to be improved thanks to the empowerment of IT.

Synthèse

Définitions et domaines d'applications

La reconnaissance de la parole n'est pas synonyme de reconnaissance vocale. En effet la première consiste à convertir un discours émis par voie orale dans un langage naturel en un texte, et la seconde consiste à reconnaître une personne uniquement par sa voix.

Les systèmes de reconnaissance vocale permettent à l'utilisateur un gain de temps considérable. En effet si une personne peut taper jusqu'à 90 mots par minutes au clavier, les systèmes de reconnaissance vocale peuvent aller jusqu'à 135 mots par minute. Ces systèmes sont de plus en plus utilisés dans divers domaines:

  • La bureautique : logiciels de dictée vocale, pilotage de l’environnement, dictée de messages électroniques
  • Les commandes vocales sur smartphones
  • Les services de télécommunication: renseignements par commande vocale via le téléphone (séances cinéma, annuaires, renseignements...etc)
  • Le E-commerce
  • la transcription automatique
  • Les services Web: remplissage de formulaires par la voix…
  • Les bornes vocales (sur site) : renseignements touristiques, achat tickets transport (SNCF)
  • L'enseignement des langues : évaluation de la prononciation
  • Les transports : commande vocale pour l’aide au pilotage
  • l’indexation de documents multimédias
  • L'aide aux handicapés : saisie de données à la voix, commandes vocales (ouverture porte, contrôle des équipements au domicile)
  • L'archivage & recherche d’informations : transcription automatique de documents radio ou télédiffusés, recherche d’informations dans des BD audiovisuelles

Historiques de la reconnaissance de la parole

Les travaux sur la reconnaissance de la parole datent du début du xxe siècle mais Davis, Biddulph et Balashek furent les premiers ingénieurs à développer un système de reconnaissance de parole, en 1952. Ce système électronique conçu dans les laboratoires Bell Labs se limitait à reconnaître quelques chiffres. Cette nouvelle technologie a inspiré de nombreux chercheurs et c'est en 1972 qu'un système de reconnaissance de parole est commercialisé pour la première fois. Développé par la société Threshold Technologies, le VIP100 avait une capacité limitée à 32 mots. Moins de 15 plus tard, en 1985, les premiers systèmes de reconnaissance de parole ayant une capacité de plusieurs milliers de mots voient le jour, se rapprochant ainsi de la taille du vocabulaire de l'être humain (entre 10 000 et 150 000 mots).

Fig. 1 : Shoebox, un système de reconnaissance de parole conçu par IBM en 1960 permettant de résoudre des équations arithmétiques dictées à l'oral

Le principe de la reconnaissance de la parole

Le principe de fonctionnement de la reconnaissance de la parole est le suivant:

La parole est tout d'abord captée dans un microphone. Ce signal est ensuite numérisé et paramétré par une technique d'analyse fréquentielle utilisant la transformée de Fourier grâce à un convertisseur analogique-numérique. Une association est ensuite réalisée entre les segments élémentaires de la parole et les éléments lexicaux. Pour cela il y a deux algorithmes possibles. Elle peut faire appel à une modélisation statistique par modèles de Markov cachés([1]) et/ou par réseaux de neurones artificiels ([2]). Une correspondance de pattern matching est ensuite réalisée par l'algorithme de déformation temporelle dynamique. Il s'agit ici de la concaténation des modèles précédemment effectués afin de reconstituer la phrase la plus probable.

Exemples de systèmes de reconnaissance de la parole

La reconnaissance de la parole est de plus en plus présente dans nos quotidiens. Ainsi les systèmes les plus connus sont:

  • Apple Siri, qui a la particularité de comprendre et d'utiliser le langage naturel
  • Microsoft Cortana, opérationnel sur Windows Phone 8.1 et Windows 10
  • Google now
  • Dragon naturally speaking, qui est considéré comme le meilleur système de reconnaissance de parole à ce jour.
  • IBM ViaVoice. IBM a consacré plus de 40 années de recherche au développement de cette technologie

Les difficultés

  • La parole continue: Sur un paragraphe écrit, les mots sont facilement discernables puisqu'ils sont séparés par des espaces. Or dans le langage naturel oral, les systèmes de reconnaissance vocale doivent être capables de distinguer les mots par les silences qui peuvent durer quelques dixièmes voire centièmes de secondes.
  • La variabilité: Elle provient de la position d'un phonème par rapport aux autres, des locuteurs aux timbres différents : homme, femme, enfant et à leur mode d'élocution : voix chantée, criée, enrouée, sous stress,....Elle est due aussi à la qualité du moyen d'acquisition(microphone) et à l'environnement. Ainsi, une personne ne prononce jamais un son de la même façon mais il est néanmoins compris par l'oreille humaine. Il doit donc en être de même pour les systèmes de reconnaissance de la parole.
Fig.2 : Enregistrement de deux sons d'un même mot par la même personne
  • Les phonèmes consonantiques sont beaucoup moins faciles à distinguer que les phonèmes vocaliques. Ainsi, un systèmes de reconnaissance de parole peut comprendre "Crier" au lieu de "Trier".
Fig.3 : Enregistrement du mot "effacer"