Понимание распознавания голоса

Попробуйте наш инструмент устранения неполадок





Представьте, что вы сидите расслабленно на диване и просто приказываете своему компьютеру, ноутбуку или мобильному телефону выполнять простые задачи, такие как ввод письма или выполнение нескольких команд. Является ли это возможным?

Конечно, именно здесь на помощь приходит распознавание голоса.




По определению это процесс распознавания человеческой речи и преобразования ее в текстовую форму.

Принцип

Основной принцип распознавание голоса включает в себя тот факт, что речь или слова, произнесенные любым человеком, вызывают колебания в воздухе, известные как звуковые волны. Эти непрерывные или аналоговые волны оцифровываются и обрабатываются, а затем декодируются в соответствующие слова, а затем соответствующие предложения.



распознавание голоса

Компоненты системы распознавания речи

Итак, из чего состоит базовая система распознавания речи?

Компоненты системы распознавания речи

  • Устройство перехвата речи : Он состоит из микрофона, который преобразует сигналы звуковой волны в электрические сигналы, и аналого-цифрового преобразователя, который дискретизирует и оцифровывает аналоговые сигналы для получения дискретных данных, понятных компьютеру.
  • Цифровой сигнальный модуль или процессор : Выполняет обработку исходного речевого сигнала, например преобразование в частотную область, восстанавливая только необходимую информацию и т. Д.
  • Хранение предварительно обработанного сигнала : Предварительно обработанная речь сохраняется в памяти для выполнения дальнейших задач распознавания речи.
  • Справочные шаблоны речи : Компьютер или система состоит из предопределенных речевых шаблонов или шаблонов, уже сохраненных в памяти, которые будут использоваться в качестве эталона для сопоставления.
  • Алгоритм сопоставления с образцом : Неизвестный речевой сигнал сравнивается с эталонным речевым образцом для определения фактических слов или набора слов.
Работа системы

Теперь давайте посмотрим, как на самом деле работает вся система.


Работа системы

  • Речь можно рассматривать как акустический сигнал, то есть сигнал, несущий информацию сообщения. Нормальный человек с ограниченной скоростью движения его / ее артикуляторов (органов речи) может воспроизводить речь со средней скоростью 10 звуков в секунду. Средняя скорость передачи информации составляет около 50-60 бит / сек. Это означает, что на самом деле в речевом сигнале требуется только 50 бит / с информации. Этот акустический сигнал преобразуется микрофоном в аналоговые электрические сигналы. Аналого-цифровой преобразователь преобразует этот аналоговый сигнал в цифровые выборки, выполняя точные измерения волны через дискретные интервалы.
  • Оцифрованный сигнал состоит из потока периодических сигналов, дискретизируемых с частотой 16000 раз в секунду, и не подходит для выполнения реальных распознавание речи процесс, так как узор не может быть легко обнаружен. Чтобы извлечь фактическую информацию, сигнал во временной области преобразуется в сигнал в частотной области. Это выполняется цифровым сигнальным процессором с использованием техники БПФ. В цифровом сигнале компонент через каждые 1/100thсекунды анализируется и вычисляется частотный спектр для каждого такого компонента. Другими словами, оцифрованный сигнал сегментируется на небольшие части частотных амплитуд.
  • Каждый сегмент или частотный график представляет различные звуки, издаваемые людьми. Компьютер выполняет сопоставление неизвестных сегментов с сохраненной фонетикой конкретного языка. Это сопоставление с образцом выполняется тремя способами:

Использование акустического фонетического подхода : В акустическом фонетическом подходе обычно используется скрытая марковская модель. Эта модель развивает недетерминированную вероятностную модель распознавания речи. Эта модель состоит из двух переменных - скрытых состояний фонем, хранящихся в памяти компьютера, и видимого частотного сегмента цифрового сигнала. Каждая фонема имеет свою собственную вероятность, и сегмент сопоставляется с фонемой в соответствии с вероятностью, и сопоставленные фонемы затем собираются вместе, чтобы сформировать правильные слова в соответствии с сохраненными грамматическими правилами языка.

Использование подхода распознавания образов : В подходе распознавания образов система обучается определенному речевому образцу для любого языка, и неизвестный речевой образец сравнивается с эталонным речевым образцом путем определения расстояния между сигналами с использованием техники временной деформации.

Использование искусственного интеллекта : Подход искусственного интеллекта основан на использовании базовых источников знаний, таких как знание звуков, произносимых на основе спектральных измерений, знание правильных значимых и синтаксических слов.

Факторы, от которых зависит система распознавания речи

Система распознавания речи зависит от следующих факторов:

  • Отдельные слова : Между последовательными произнесенными словами должна быть пауза, потому что непрерывные слова могут перекрываться, что затрудняет понимание системой, когда слово начинается или заканчивается. Таким образом, между последовательными словами должна быть пауза.
  • Один динамик : Многие выступающие, пытающиеся одновременно вводить речевой сигнал, могут вызвать перекрытие сигналов и прерывания. Большинство используемых систем распознавания речи зависят от говорящего.
  • Размер словарного запаса : Языки с большим словарным запасом труднее рассматривать для сопоставления с образцом, чем языки с небольшим словарным запасом, поскольку в последнем случае меньше шансов иметь двусмысленные слова.
Система распознавания речи в Windows 7

Я хотел бы порекомендовать следующие шаги всем, кто использует Windows 7 для системы распознавания речи.

  • Откройте Панель управления из меню «Пуск» или щелкнув значок.
  • Выберите «Легкость доступа», а затем нажмите «Распознавание речи».
  • Затем нажмите настроить микрофон и выберите настольный микрофон из доступных опций.
  • Затем возьмите учебник по речи и следуйте данным инструкциям.
  • После этого обучите свой компьютер лучшим опциям, чтобы компьютер сохранял определенный образец вашего речевого сигнала. Это можно сделать, нажав на опцию «Обучить компьютер, чтобы лучше вас понимать» и следуя инструкциям.
  • Теперь запустите значок распознавания речи и начните диктовать свою речь компьютеру. Вы также можете добавить свои слова в компьютерный словарь.
Практические системы распознавания речи: использование HM2007

Практическая система распознавания речи может быть построена с использованием ИС распознавания речи. HM2007 . HM2007 представляет собой 48-контактную ИС, которая обеспечивает функцию распознавания речи. Он работает в двух режимах: ручном режиме или режиме центрального процессора. В обоих режимах ИС сначала обучается распознавать слова пользователя, произносящего каждое слово для соответствующего номера, нажатого на клавишу. ИС сохраняет каждое слово-сигнал в той области памяти, которая соответствует этому слову. Выходные данные ИС передаются на микроконтроллер, откуда они отображаются на ЖК-дисплее.

Практические системы распознавания речи

Обычно мы используем ручной режим для работы HM2007.

  • HM2007 состоит из вывода RDY, который является активным выводом низкого уровня, указывающим, что ИС готова к обучению.
  • Голосовой ввод будет подаваться через микрофон, подключенный к контакту MICIN IC.
  • IC сопряжен с клавиатурой, которая используется для ввода чисел, соответствующих каждому слову. IC работает в двух функциях - Clear и Train. Когда на клавиатуре нажата клавиша Train, ИС начинает процесс обучения.
  • Пользователь нажимает цифровую клавишу перед нажатием функциональной клавиши «Поезд» и произносит необходимое слово в микрофон.
  • Микросхема отправляет высокий сигнал на вывод ME (включение памяти), который подключен к соответствующему выводу ME SRAM. 8-битный сигнал данных, соответствующий нажатому номеру, сохраняется в SRAM (внешнем RAM) через внешнюю шину.
  • После того, как голосовой ввод обнаружен, вывод RDY находится на высоком логическом уровне, и IC переходит в состояние распознавания, где запускает процесс распознавания.
  • Результат процесса передается через шину данных с высоким контактом DEN (Data Enable).
  • Затем 8-битные данные могут быть переданы в микроконтроллер через последовательный интерфейсный процессор или сначала зафиксированы с помощью защелки IC 74HC573.
  • Микроконтроллер сопряжен с ЖК-дисплеем и запрограммирован таким образом, что соответствующее слово отображается на дисплее.

Единственная предосторожность, которую необходимо соблюдать, - не использовать омонимы (слова с похожим звучанием), а также позаботиться о возбуждении в голосе.

Итак, вот как базовая система распознавания речи работает. Любые дальнейшие материалы могут быть добавлены.

Кредит изображения

  • Система распознавания речи от Gstatic
  • Манипулирование речевой формой волны с помощью Дадисп

Компоненты системы распознавания речи: введение в распознавание речи и говорящего - Ричард Д. Пикок и Дэрил Х. Граф