La multiplication des objets avec assistants vocaux montre que la voix pourrait bien devenir la nouvelle interface homme-machine d’importance. Mozilla, qui a déjà loupé le train du mobile, compte bien se faire une place dans ce nouveau domaine et déploie une stratégie qui commence à prendre son envol.

En novembre 2017, la fondation open source a lancé DeepSpeech, une plateforme logicielle qui permet de créer des systèmes de reconnaissance vocale basés sur des algorithmes d’apprentissage profond. L’architecture s’inspire d’un papier scientifique de Baidu Research. L’implémentation s’appuie sur la plateforme open source Google TensorFlow, destinée à l’apprentissage automatique.

Chacun peut directement participer en ligne

Toute cette intelligence artificielle ne sert à rien si l’on n’a pas un stock de données avec laquelle on peut la nourrir. C’est pourquoi Mozilla a lancé de manière concomitante le projet Common Voice. Son but est de créer un corpus linguistique open source dans un maximum de langues. Il est alimenté par des bénévoles qui ajoutent une grande quantité de phrases écrites et parlées et qui font ensuite correspondre les deux. Chacun peut participer en ligne, que ce soit pour intégrer des phrases ou faire le travail de correspondance.

La première langue couverte par Common Voice était l’anglais. Trois autres langues viennent maintenant de faire leur entrée dans le corpus, à savoir le français, l’allemand et le gallois. Quarante-trois autres langues sont en cours d’acquisition. On y trouve des langues nationales comme le hongrois, le russe ou l’irlandais. Mais aussi des langues régionales comme le breton, le cornique, le tamoul, le tchouvache ou le télougou. Pour accélérer la création de ce corpus, Mozilla organise des événements baptisés « Common Voice Sprint » où les bénévoles se réunissent pendant un ou deux pour intégrer des éléments linguistiques.

Avec ce double projet, à la fois algorithmique et data, Mozilla veut briser dans l’œuf le nouvel oligopole qui est train de se constituer autour des assistants vocaux de Google, Amazon, Apple, etc. Actuellement, les éditeurs qui souhaitent bénéficier d’une interface vocale pour leurs applications n’ont pas vraiment d’autre choix que de se tourner vers ces plateformes. « Nous pensons que ces interfaces ne devraient pas être contrôlés par un petit nombre d’entreprises qui décideraient de donner un accès ou non à des services vocaux. De plus, nous voulons que les utilisateurs puissent toujours se faire comprendre dans leurs propres langues ou dialectes (…) Les langues autochtones fournissent un contexte culturel partagé plus profond, au point d’influencer nos schémas de pensée. C’est une partie de notre humanité que nous souhaitons absolument conserver et soutenir avec la technologie », explique Katharina Borchert, directrice de l’innovation chez Mozilla, dans une note de blog.

Cet article a été importé d’un feed RSS, cliquez-ici pour voir l’article original