L'an dernier, le système ne reconnaissait pas 5,9 pour cent des paroles prononcées dans une conversation, et Microsoft se targuait déjà que la technologie était aussi performante que les qualités humaines. D'autres chercheurs ont ensuite conclu au départ de leurs propres expérimentations que les humains peuvent traiter les paroles échangées de manière plus précise, s'ils s'en donnent davantage la peine. Chez l'homme, la marge d'erreur est alors de 5,1 pour cent. Entre-temps, Microsoft a donc également atteint ce niveau, selon le géant technologique sur son blog.

Pour la recherche, l'entreprise recourt à Switchboard, un ensemble d'entretiens téléphoniques qui est utilisé depuis des années déjà par les scientifiques en charge de la reconnaissance vocale. Ces entretiens portent sur des sujets tels le sport et la politique.

Le travail n'est pour autant pas terminé. Microsoft ambitionne de réduire encore le pourcentage d'erreurs en identifiant mieux aussi les paroles échangées dans des environnements bruyants ou celles prononcées par des gens ayant un accent ou parlant des langues moins courantes.