Les chercheurs de Microsoft travaillent sur un modèle de synthèse vocale capable d’imiter la voix d’une personne, avec ses émotions et ses intonations, après seulement trois secondes d’entraînement.
Certains nécessitent des données vocales propres provenant d’un studio d’enregistrement afin de capturer une parole de haute qualité.
Ainsi, si l’extrait de voix utilisé comme invite acoustique dans le modèle est enregistré au téléphone, le texte parlé synthétisé sonnera également comme s’il provenait du téléphone.
Si les secondes de la voix enregistrée de l’invite acoustique émettent de la colère, le discours synthétisé basé sur cette voix affichera également de la colère.
La voix d’une personne pourrait être capturée et synthétisée pour être utilisée dans un large éventail de domaines – des publicités aux appels de spam en passant par les jeux vidéo ou les robots de conversation.
Patrick Harr, PDG de la société anti-phishing SlashNext, a déclaré à The Register que le TTS pourrait également devenir un outil supplémentaire pour les cybercriminels, qui pourraient l’utiliser pour des campagnes de vishing – des attaques utilisant des appels téléphoniques ou des messages vocaux frauduleux censés provenir d’un contact connu de la victime.