Пользователи ВКонтакте могут больше не слушать голосовые сообщения. Соцсеть создала технологию, которая расшифровывает аудиозаписи в текст. За распознавание речи отвечает нейросеть, созданная командой исследований ВКонтакте.
Новая функция позволяет расшифровывать полученные и отправленные голосовые сообщения длительностью до 30 секунд. По сообщению ВКонтакте, это 90% от всех аудио, которые пользователи записывают при общении. В будущем соцсеть обещает расширить возможности функции, начав расшифровывать более длинные и пересылаемые сообщения.
Нейросеть ВКонтакте учитывает высокую нагрузку платформы, хорошо понимает разговорный язык, заимствованную лексику и справляется с аудио низкого качества и нечеткой речью. Распознавание голосовых сообщений происходит в полностью автоматическом режиме. Сотрудники соцсети и сторонние лица не обладают доступом к личным сообщениям пользователей.
Павел Калайдин, директор по исследованиям в области искусственного интеллекта ВКонтакте:
Расшифровка аудиосообщений — уникальная и по-своему интересная задача, которая значительно отличается, например, от распознавания речи в голосовых помощниках. С другом в чате общаются совсем не так, как с умной колонкой: сообщения записываются на бегу с посторонними шумами, большим количеством сленга и сокращений. Нейросеть должна не просто понять речь, но и сформулировать связный текст. Поэтому на самом деле мы сделали три нейросети: одна отвечает за распознавание, вторая находит подходящие слова, а третья расставляет знаки препинания. Вместе они станут самым высоконагруженным сервисом по распознаванию речи на русском языке.
Функция расшифровки аудиосообщений доступна в мобильном приложении VK. В ближайшую неделю она появится у всех пользователей. В будущем команда VK обещает запустить распознавание аудиосообщений и в декстопной версии соцсети.
Напомним, ВКонтакте сообщил о тестировании функции распознавания голосовых сообщений на русском языке в марте 2020 года.
Источник: пресс-релиз ВКонтакте