ВКонтакте переведёт голосовые сообщения в текст: визуалы в восторге! Запущена технология распознавания голосовых сообщений и перевода их в текстовые.


08:12, 11  июня  2020
Особенности нейросети: учёт русско-язычного сленга, пиковых нагрузок платформы, а так же сложной среды, в которой записаны голосовые сообщения (в том числе, использование технологий фильтрации и подавления шумов).
Пользователям социальной ВКонтакте больше не придётся прослушивать голосовые сообщения, их можно будет прочесть. Достаточно одного нажатия кнопки и нейросеть расшифрует аудиофайл, переведя его в текстовое сообщение.  Распознавание речи осуществляется искусственным интеллектом, который создан командой ВКонтакте.

Особенности нейросети: учёт русско-язычного сленга, пиковых нагрузок платформы, а так же сложной среды, в которой записаны голосовые сообщения (в том числе, использование технологий фильтрации и отсечения шумов).
реклама

Функция является перспективной: Визуалы (люди склонные получать информацию через зрительное восприятие) имеют психологические барьеры в прослушивании голосовых сообщений, это представляет для них изрядный стресс.  Теперь, не отвлекаясь на прослушивание голосовых сообщений, они могут быть восприняты визуально, в едином потоке читаемого текста.

реклама
Функция стартовала в мобильном приложении VK и доступна пока части пользователей, а всеобще доступной станет примерно через неделю. Распознаются все сообщения, как отправленные, так и принятые, с длительностью до 30 секунд - каждое (это примерно 90 % от всех аудиофайлов, которые записываются и пересылаются в качестве голосовых сообщений в VK).

Вот как это выглядит на дисплее мобильных устройств:
реклама

Появится ли функция распознавания для десктопных версий? Да, впоследствии такая функция появится и для компьютеров. При чём, на стационарных устройствах возможно будет расшифровать не только короткие, но и длинные аудиосообщения, в том числе пересланные или постоянно находящиеся в памяти компьютера. Расшифровка наговоренных текстов полезна функция, в том числе для "печатных" СМИ, которые часто переводят речь в текстовые файлы (интервью, брифинги и т.д.).

Можно ли искать старые текстовые расшифровки аудиофайлов? Да можно, к нужной информации в переписке можно вернуться, путём поиска по тексту. 

Тестирование нейросети началось в марте. Дополнительным преимуществом является сокращение общего времени на вход/выход в систему прослушивания сообщений. При этом следует понимать, что имеется ввиду не только физическое время для совершения указанных операций, но и ментальная адаптация для перехода восприятия из зрительного в слуховое и обратно, что отнимает время и эмоциональные силы. 

Читайте также

Комментарии

Загрузка комментариев...