Определение начальной и конечной точки произнесенного слова в звуковом потоке



Предлагаю следующий алгоритм:

1. Удаляем шумы

2. Отмечаем переходы через ноль в фонограмме

3. Копируем на вторую дорожку фонограмму со сдвигом чуть длиннее периода самой низкой фонемы

4. Фонограммы с отметками переходов через нуль объединяем в общий файл.

5 На прямой вход реверсивного счетчика подаем отметки сигнала перехода через нуль с первого канала на вычитающий со второго. В моменты когда нуль делим фонограмму так как появится не информативный участок , период который нам не интересен так как он ниже уровня частот нашей фонограммы.

Примечание:

Задержка должна быть больше чем время периода самой низкой частоты в звуке и короче времени при котором возникает эффект эха, не более 50 мс.

Фазовый сдвиг звука до наступления эффекта звука человек не различает просто меняется окраска звука.

Динамическое программирование в алгоритмах распознавания речи

Комментарии

Популярные сообщения из этого блога

Задержка звука с Python

Распознавание диктора