Распознавание речи

Распознавание речи или преобразование речи в текст - это способность машины или программы распознавать произносимые вслух слова и преобразовывать их в читаемый текст. Простое программное обеспечение для распознавания речи имеет ограниченный словарный запас слов и фраз, и оно может идентифицировать их, только если они произносятся очень четко. Более сложное программное обеспечение способно воспринимать естественную речь, различные акценты и языки. 

Распознавание речи включает в себя различные области исследований в области компьютерных наук, лингвистики и компьютерной инженерии. Многие современные устройства или программы, ориентированные на текст, могут иметь функции распознавания речи, чтобы упростить использование устройства или использовать его без помощи рук.

 Важно отметить , термины распознавания речи и распознавания голоса иногда используются как синонимы. Однако эти два термина означают разные вещи . Распознавание речи используется для идентификации слов в разговорной речи. Распознавание голоса - это биометрическая технология, используемая для идентификации голоса конкретного человека или для идентификации говорящего.

  Как это работает 

Распознавание речи работает с использованием алгоритмов акустического и языкового моделирования. Акустическое моделирование представляет собой взаимосвязь между языковыми единицами речи и звуковыми сигналами; языковое моделирование сопоставляет звуки с последовательностями слов, чтобы помочь различить похожие слова.

 Часто скрытые марковские модели также используются для распознавания временных характеристик в речи для повышения точности в системе. Этот метод будет случайным образом изменять системы, в которых предполагается, что будущие состояния  зависят от прошлых состояний. Другие методы, используемые в распознавании речи, могут включать нейролингвистическое программирование ( NLP ) и N-граммы. НЛП упрощает процесс распознавания речи и занимает меньше времени. N-граммы, с другой стороны, представляют собой относительно простой подход к языковым моделям. Они помогают создать распределение вероятностей для последовательности. 

Более продвинутое программное обеспечение для распознавания речи применяют ИИ и машинное обучение . Эти системы могут использовать грамматику, структуру, синтаксис, а также состав звуковых и голосовых сигналов для обработки речи. Программное обеспечение, использующее машинное обучение, позволяет узнавать больше, чем чаще оно используется, поэтому может обучится понимать  акценты. 

Приложения 

Наиболее часто распознавания речи встречается в мобильных устройствах. Например, люди могут использовать эту функцию в смартфонах для маршрутизации вызовов, преобразования речи в текст, голосового набора и голосового поиска. Пользователь смартфона может использовать функцию распознавания речи для ответа на текст, не глядя на свой телефон. Например, распознавание речи на iPhone связано с другими функциями, такими как клавиатура и Siri. Если пользователь добавляет дополнительный язык к своей клавиатуре, он может затем использовать функцию распознавания речи на дополнительном языке (если дополнительный язык выбран на клавиатуре при активации распознавания голоса. Чтобы использовать другие функции, такие как Siri, пользователь должен  изменить языковые настройки.) Распознавание речи также можно найти в приложениях для обработки текстов, таких как Microsoft Word, где пользователи могут диктовать, что они хотят и отображать в виде текста. 

За и против 

Несмотря на то, что технология распознавания речи удобна, у нее есть несколько проблем, которые необходимо решить, поскольку она постоянно развивается. Плюсы программного обеспечения для распознавания речи в том, что оно простое в использовании и легко доступно. Программное обеспечение для распознавания речи теперь часто устанавливается на компьютеры и мобильные устройства, обеспечивая легкий доступ. 

Распознавание речи предлагает способ общения с окружающими нас технологиями . Обратной стороной распознавания речи является его неспособность иногда улавливать слова из-за вариаций произношения, отсутствие поддержки некоторых языков и неспособность отсортировать фоновый шум. Эти факторы могут привести к неточностям. Некоторым программам распознавания речи требуется время и они могут казаться относительно медленными для обработки речи. 

Производительность 

Эффективность распознавания речи измеряется точностью и скоростью. Точность измеряется коэффициентом ошибок в словах. WER работает на уровне слов и выявляет неточности в транскрипции, но не может определить, как произошла ошибка. Скорость измеряется в реальном времени. На производительность компьютерного распознавания речи может влиять множество факторов, включая произношение, акцент, высоту тона, громкость и фоновый шум.
Текст от: Маргарет Роуз

Офлайн распознавание речи в режиме реального времени Raspberry Pi Zero.

Как вы используете распознавание речи в повседневной жизни? 
Оставляем комментарии.

Комментарии

Популярные сообщения из этого блога

Задержка звука с Python

Распознавание диктора