Системе Facebook под названием Wav2vec-U достаточно «скормить» образцы речи на нужном языке и отрывки случайного текста на нём же, после чего она начнёт обучаться самостоятельно, пока не «поймёт» отдельные слова и фразы.
Нынешние системы распознавания речи обучаются на записях разговоров и их текстовых расшифровках. Такие расшифровки пишут люди вручную, прослушивая разговоры и переводя их в текст. Поэтому создание системы распознавания речи — очень долгое и затратное дело.
Новой системе расшифровки не нужны — она обучается на любых текстах, которые написаны на том же языке. Генеративно-состязательная сеть с обратной связью многократно «прогоняет» речевые образцы, пока не придёт к соответствию между звуковыми сочетаниями и записанными словами.
Инженеры Facebook успешно научили Wav2vec-U распознавать речь на суахили, киргизском и крымско-татарском языках. Система выдаёт на 63% меньше ошибок, чем предыдущая система такого же типа, причём ей хватило всего 9,6 часов речи и 3000 написанных фраз для обучения. Чтобы ускорить развитие Wav2vec-U, компания выложила код системы на Github.
Компании Amazon, Otter.ai, Google, Deepgram, Microsoft, Verbit предлагают свои системы распознавания речи, но все они требуют участия человека для обучения, в отличие от новой системы Facebook.
Материал: TJ