- La machine ou l’intelligence artificielle arrive donc à mieux lire sur les lèvres que l’homme
iT-News ( intelligence artificielle) – des scientifiques de l’Université d’Oxford et de DeepMind, une filiale de Google, ont mis au point une intelligence artificielle capable de convertir les mouvements des lèvres en texte.
L’intelligence artificielle était capable de traduire automatiquement un texte, ou de simuler une voix presque humaine.
Mais, depuis la finalisation d’un projet mené à l’Université d’Oxford conjointement avec des scientifiques de DeepMind (Google), elle sait lire sur les lèvres, rapporte New Scientist. Une équipe de chercheurs anglais a mis au point un programme informatique baptisé LipNet qui analyse les vidéos et convertit les mouvements de lèvres en texte.
Leur rapport parvient à un taux d’exactitude de 46,9% dans la reconnaissance des phrases prononcées par le programme, contre 23,8% pour le professionnel ayant servi de témoin. New Scientist fait état d’un grand nombre d’erreurs bénignes pour le système, comme le fait d’omettre un «s» à la fin d’un mot. Pour atteindre un tel niveau de performance, le système a été nourri de 5000 heures de vidéo de six programmes TV différents de la BBC, soit, en l’occurrence, 118.000 phrases prononcées.
Le programme a permis de travailler sur des phrases entières, et non plus sur des mots isolés
«D’après ce que nous savons, LipNet est le premier modèle de lecture sur les lèvres qui travaille au niveau des phrases», écrivent les chercheurs. Jusqu’alors, les programmes existants effectuaient uniquement une classification des mots, et non une prédiction des séquences au niveau de la phrase. Pour y parvenir, le programme s’appuie sur un système de réseaux neuronaux convolutifs, inspiré par le cortex visuel des animaux.
Il y a deux semaines, un programme similaire, également baptisé LipNet et développé par une autre équipe d’Oxford, avait obtenu de meilleurs résultats que les personnes testées pour la même tâche. Alors que ce dernier se restreignait à une base de données de 51 mots, le nouveau LipNet a eu affaire à une base de 17.500 mots uniques.