Распознавание диктора

Распознавание голоса или говорящего - это способность машины или программы принимать и интерпретировать диктовку или понимать и выполнять голосовые команды. Распознавание голоса приобрело известность и стало использоваться с появлением искусственного интеллекта и интеллектуальных помощников, таких как Amazon Alexa, Apple Siri и Microsoft Cortana

 Системы распознавания голоса позволяют потребителям взаимодействовать с технологией, просто разговаривая с ней, позволяя выполнять запросы, напоминания и другие простые задачи без помощи рук. 

 Как работает распознавание голоса 

Программное обеспечение для распознавания голоса на компьютерах требует преобразования аналогового звука в цифровые сигналы, известного как аналого-цифровое преобразование . Чтобы компьютер мог расшифровать сигнал, он должен иметь цифровую базу данных или словарь слов или слогов, а также быстрое средство для сравнения этих данных с сигналами. Образцы речи хранятся на жестком диске и загружаются в память при запуске программы. Компаратор сравнивает эти сохраненные шаблоны с выходом аналого-цифрового преобразователя - действие, называемое распознаванием образов . 

 На практике размер эффективного словаря программы распознавания голоса напрямую связан с объемом оперативной памяти компьютера, на котором она установлена. Программа распознавания голоса работает во много раз быстрее, если весь словарь может быть загружен в RAM , по сравнению с поиском на жестком диске некоторых совпадений. Скорость обработки также имеет решающее значение, поскольку она влияет на то, насколько быстро компьютер может искать совпадения в оперативной памяти. 

Системы распознавания голоса, такие как Amazon Alexa, служат цифровыми помощниками, которые отвечают на простые запросы пользователей.  Некоторые из самых популярных систем распознавания голоса функционируют как виртуальные помощники, чтобы отвечать на вопросы о погоде или выполнять простые задачи, такие как добавление товаров в онлайн-корзину. Хотя технология распознавания голоса зародилась на ПК, она получила признание как в бизнесе, так и среди потребителей на мобильных устройствах и в электрических домашних помощниках. Популярность смартфонов открыла возможность создать карманные технологии распознавания голоса, а домашние устройства, такие как Google Home и Amazon Echo, принесли технологию распознавания голоса в гостиные и кухни. Распознавание голоса в сочетании с постоянно растущей стабильностью датчиков Интернета открыло новые свойства многим потребительским товарам, которые ранее не обладали какими-либо интеллектуальными возможностями.

 По мере роста использования технологии распознавания голоса и взаимодействия с ней большего числа пользователей компании, внедряющие программное обеспечение для распознавания голоса, будут иметь больше данных и информации для передачи в нейронные сети, которые используются в системах распознавания голоса, тем самым улучшая возможности и точность продуктов распознавания голоса.

 Распознавание голоса использует 

Использование распознавания голоса быстро выросло по мере развития ИИ, машинного обучения и признания потребителей. Все домашние цифровые помощники от Google до Amazon и Apple внедрили программное обеспечение для распознавания голоса для взаимодействия с пользователями. То, как потребители используют технологию распознавания голоса, зависит от продукта, но она может включать преобразование голоса в текст, настройку напоминаний, поиск в Интернете и ответы на простые вопросы и запросы, такие как воспроизведение музыки или обмен информацией о погоде или дорожной обстановке. 

 Преимущества и недостатки распознавания голоса 

Распознавание голоса позволяет потребителям работать в многозадачном режиме, напрямую обращаясь к своему Google Home, Amazon Alexa или другим технологиям распознавания голоса. Используя машинное обучение и сложные алгоритмы , технология распознавания голоса может быстро превратить вашу устную работу в письменный текст. 

 Хотя показатели точности улучшаются, все системы и программы распознавания голоса допускают ошибки. Фоновый шум может создавать ложные входные сигналы, которых можно избежать, используя систему в тихой комнате. Также существует проблема со словами, которые звучат одинаково, но пишутся по-разному и имеют разное значение - например, кот и код. Сегодня эту проблему  в значительной степени решают, используя сохраненную контекстную информацию. Однако для этого потребуется больше оперативной памяти и более быстрые процессоры, чем в настоящее время доступны в персональных компьютерах. 

История распознавания голоса 

За последние пять десятилетий наблюдается экспоненциальный рост технологий распознавания голоса. Еще в 1976 году компьютеры могли понимать немногим более 1000 слов. Это общее количество подскочило примерно до 20 000 в 1980-х, поскольку IBM продолжала развивать технологию распознавания голоса. 

 Первый продукт распознавания динамиков для потребителей был выпущен в 1990 году компанией Dragon и получил название DragonDictate. В 1996 году IBM представила первый продукт для распознавания голоса, способный распознавать непрерывную речь. 

 После запуска смартфонов во второй половине 2000-х Google запустила приложение «Голосовой поиск» для iPhone. Три года спустя Apple представила Siri, которая теперь является известным помощником по распознаванию голоса. 

 За последнее десятилетие несколько других технологических лидеров также разработали более сложное программное обеспечение для распознавания голоса: Amazon Echo с Alexa и Microsoft Cortana - оба действуют как личные помощники, реагирующие на голосовые команды.

Перевод текста Маргарет Роуз

Комментарии

Популярные сообщения из этого блога

Задержка звука с Python