Moshi, développé par le laboratoire de recherche français Kyutai, est présenté comme le premier assistant vocal IA en temps réel. Ce dispositif unique a été mis en place en un temps record et devance Open AI : il n’aura fallu que 6 mois d’existence à Kyutai pour créer cette innovation.

Contrairement aux outils conversationnels traditionnels, Moshi utilise une technologie qui compresse le flux audio en pseudo-mots plutôt que de le convertir directement en texte. Cette méthode permet à l’IA de prédire les mots suivants de la requête en temps réel, facilitant une interaction instantanée. Cette performance est possible car Moshi traite simultanément deux flux audios : l’écoute et la parole.

Dotée d’une excellente élocution, l’IA est basée sur le travail de voix d’une vraie humaine. Cette méthode rend la synthèse sonore plus vraie que nature, d’autant plus que Moshi a démontré ses capacités à reproduire des émotions, chuchoter, avoir peur ou bien reproduire un accent frangliche.

Moshi, conçu et développé en France, a été entraîné sur le supercalculateur Nabu23 de Scaleway. L’entraînement de l’IA a nécessité une grande puissance de calcul, sécurisée bien avant l’ouverture du laboratoire Kyutai grâce à Xavier Niel, co-fondateur de Kyutai et patron de Scaleway. Moshi a été entraîné sur des GPU puissants, mais fonctionne actuellement sur des GPU grand public moins puissants et subira bientôt une optimisation pour réduire sa taille​.

Pour l’heure, l’IA est seulement anglophone mais il y a fort à parier qu’une version française sera disponible dans les prochains mois !