Google Speech: de l’humain à la machine, il n’y a qu’une voix…

Vous connaissez probablement les applications de lecture à voix haute de vos textes (Text To Speech), la reconnaissance de la parole fonctionne à l’inverse (Speech To Text).

La reconnaissance vocale permet d’analyser une voix humaine et les API, comme Google Speech-to-Text, retranscrivent la parole en texte.

Les textes écrits sont ainsi conservés et exploitablés par une machine. Ils permettent ensuite de comprendre le message, de donner une réponse, de conserver les données pour les humains ou pour plus tard.

« … Mais comment ça marche ? »

Grâce à un système de reconnaissance, les mots prononcés dans le micro du téléphone sont numérisés puis comparés à une base de données (après un long cycle d’apprentissage). Le logiciel fait correspondre les éléments acoustiques à son propre lexique.

Pour résumer :

  1. Identifier la voix, en harmonisant le rendu, en supprimant les bruits extérieurs
  2. Segmenter le texte pour séparer les mots
  3. Faire correspondre les mots et les fréquences en référence à du texte
  4. Ecrire le texte dans la machine

Google Speech-to-text, c’est tout cela avec quelques avantages majeurs :

  • Une bonne qualité de transcription
  • Un paiement à l’usage
  • Un service Cloud

Le seul “hic” est que son application ne respecte pas à 100% les nouvelles règles RGPD. 🙁

Espérons qu’ils soient sur la bonne voiX pour arranger cela !

« Voilà, vous savez tout ! »

“C’est bon, t’as fini ton speech ?

C’est grâce à cette API notamment que je, petit robot à tête bien faite, enregistre à l’écrit tous les mots (et les maux de vos clients surtout) dans ma mémoire et interprète leurs demandes.

« On s’appelle ?”

04 28 35 0 1 2 3… (Partez ! Non, non parteeeez pas !)

Partager