Использование нейросетей для анализа звуковой информации


Модель системы анализа речи


Структурная схема системы изображена на рис. 6.

Уровни системы анализа речи

Рис. 6

Система состоит из двух уровней: уровня ввода/вывода, предварительной обработки и выделения примитивов речи, и уровня  распознавания/синтеза слов из этих примитивов. Также возможно добавление более высоких уровней, например, уровня смыслового контроля (т.е. управление распознаванием/синтезом речи  в контексте предложения, смыслового блока, и т.д.), но это требует других, параллельных со звуковым, источников информации, и ближе к задачам ИИ.

В связи с разделением системы анализа речи на несколько уровней появилась возможность моделировать нейросеть отдельно для каждого уровня в соответствии с требованиями по обработке информации на нём. Но различия в моделях нейросетей должны быть сведены к минимуму, так как такие различия  не являются биологически оправданными, кроме того, при аппаратной реализации нейросети гораздо проще работать с однотипными структурами.

Уровень ввода/вывода сигнала

Рис.7

Блок-схема уровня ввода-вывода показана на рис. 7. При распознавании осуществляется ввод звуковой информации, предварительная обработка, получение энергетического спектра и  выделение примитивов речи.  При синтезе осуществляется выделение из нейросети запомненного примитива, синтез спектра (частотный параметрический синтез), преобразование спектра в звуковой сигнал. При обучении последовательным повторением  двух вышеописанных  процедур осуществляется запоминание примитивов речи в нейросети.



Содержание раздела