Avez-vous déjà passé un appel à un ami qui se trouvait dans une soirée bruyante ? Si oui, vous savez probablement qu’il est compliqué de comprendre son correspondant au milieu d’un brouhaha. La raison est simple : à la différence d’un être humain, un microphone fait rarement la distinction entre les différentes sources sonores, et retransmet l’ensemble de ce qu’il écoute.

Un phénomène qui pourrait bientôt disparaître. Des chercheurs de Google ont mis au point une intelligence artificielle capable d’isoler les voix, et le résultat s’avère assez impressionnant. 

Plusieurs pistes sonores, et de la vidéo

Pour fonctionner, Google a entraîné une IA grâce à une technique, désormais classique, de deep learning. Son objectif : distinguer différentes sources sonores à partir d’un seul enregistrement. Le logiciel analyse une écoute et la divise en autant de pistes audio que nécessaires. Sa particularité : l’analyse de l’image. L’intelligence artificielle observe les mouvements de la bouche d’une personne, identifie la source d’un provenance d’un son, et lui crée une piste associée. Il devient alors possible d’éliminer intégralement le bruit de fond d’une vidéo. 

Dans le cadre d’un débat, le résultat est encore plus bluffant. Deux personnes parlent en même temps, mais on peut complètement couper le son d’un des deux protagonistes, puis réécouter leurs paroles séparément. Google explique que 100000 vidéos ont été analysées, résultant à 2000 heures de vidéos dans lesquelles tout bruit de fond a été éliminé. Google a mis en ligne quatre exemples sur son blog dédié à la recherche, où l’on remarque que l’IA permet de sélectionner une personne, et de n’écouter plus que sa voix. 

Différentes utilisations

Grâce à son IA, Google explique pouvoir améliorer les sous-titres automatiques des vidéos YouTube, qui ont la fâcheuse tendance à se laisser piéger dès que des applaudissements ou un bruit extérieur vient s’ajouter à des paroles. L’entreprise a publié une vidéo illustrant sa technologie, et le sous-titrage est en effet plus représentatif de la réalité une fois le son coupé.

Enfin, le système pourrait bénéficier directement aux utilisateurs. Si on imagine bien sûr Google l’ajouter à Hangouts ou Duo pour améliorer la qualité des appels vidéo, on peut également supposer qu’une future version d’une enceinte Google Home pourrait-elle aussi en bénéficier. Toujours est-il qu’en étant capable d’isoler chaque personne présente dans une salle, la détection d’un mot-clé comme « OK Google » pourrait être améliorée. 

Pour l’instant, Google se dit encore en phase de réflexion sur les différentes utilisations possibles de sa technologie. 

Sources :
Google Research Blog
Engadget

Cet article a été importé d’un feed RSS, cliquez-ici pour voir l’article original