ВКонтакте усовершенствовал технологию распознавания голосовых сообщений. Теперь соцсеть всего за секунду может расшифровать аудиосообщения продолжительностью до двух минут – это 99% всех аудио, которые отправляют пользователи.
Если пользователю захочется рассказать длинную историю, можно записать голосовое сообщение длительностью до часа.
По данным ВКонтакте, голосовые сообщения остаются самым популярным типом вложений в мессенджере ВКонтакте, обгоняя, фотографии и файлы.
Технология распознавания аудиосообщений — собственная разработка Команды ВКонтакте. Чтобы переводить в текст более продолжительные записи, не жертвуя скоростью, разработчики нашли новое технологическое решение. Алгоритмы автоматически разбивают длинное аудио на короткие блоки, расшифровывают их все одновременно, а затем объединяют обратно в одно сообщение. При этом они умеют разделять запись, не разбивая слова на части, чтобы не искажать смысл сказанного, — для этого используется технология Voice Activity Detection. На распознавание сообщения уходит около секунды.
Сергей Ларионенко, старший разработчик команды Core Infrastructure ВКонтакте:
Наше решение состоит из нескольких нейросетей, выдерживает высокую нагрузку, понимает русскоязычный сленг и показывает хорошие результаты даже при сложных условиях записи – например, посторонних шумах или скомканной речи. Мы продолжим развивать технологию, увеличивать скорость её работы и улучшать качество распознавания.
Распознавание голосовых сообщений полностью автоматизировано. Для обучения нейросетей используются аудио, которые специально для этой задачи записывают участники программы VK Testers.
Напомним, технология распознавания аудио была запущена в соцсети в июне. С этого момента аудитория, которая пользуется голосовыми, выросла на 10% – сейчас она составляет 33 млн человек в месяц. В среднем каждый пользователь сервиса читает 8 расшифровок в день.
Источник: Пресс-релиз Вконтакте