Использование нейросетей для анализа звуковой информации


Архитектура нейросети


Нейросеть имеет довольно простую структуру и состоит из трех уровней: входной слой, символьный слой и эффекторный слой (рис. 14). Каждый нейрон последующего слоя связан со всеми нейронами предыдущего слоя. Функция передачи во всех слоя линейная, во входном слое моделируется конкуренция.

Архитектура нейросети

Рис. 14

1. Входной слой  - этот слой получает сигналы непосредственно от входов нейросети (входы не осуществляют обработку сигнала, а только распределяют его дальше в нейросеть). Он представляет собой один из вариантов самоорганизующейся карты Кохонена, обучающейся без учителя.  Основной задачей входного уровня является формирование нейронных ансамблей для каждого класса входных векторов, которые представляют соответствующие им сигналы на дальнейших уровнях обработки. Фактически, именно этот слой определяет эффективность дальнейшей обработки сигнала, и моделирование этого слоя представляет наибольшую трудность.

Нейроны этого слоя функционируют по принципу конкуренции, т.е. в результате определенного количества итераций активным остается один нейрон или нейронный ансамбль (группа нейронов, которые срабатывают одновременно). Для этого нейрона расстояние между входным вектором и вектором, который этот нейрон представляет, минимально (в данном случае используется угловое расстояние, т.е. угол между входным вектором  и вектором связей). Данный механизм осуществляется за счет действия латеральных связей и  называется латеральным торможением. Он подробно рассмотрен во многих источниках (см. [1], [7], а также приложение 7.1). Так как отработка этого механизма требует значительных вычислительных ресурсов, в моей модели он моделируется искусственно, т.е. находится нейрон с максимальной активностью, его активность устанавливается в 1, остальных в 0.

Обучение слоя Кохонена производится по правилу (7):

                                      wн = wс + a(x – wс)a,                    (7)

где wн  - новое значение веса,

wс – старое значение,

a - скорость обучения, a<1




x  - нормированный входной вектор,

a – активность нейрона.

Геометрически это правило иллюстрирует рисунок 15:

Коррекция весов нейрона Кохонена



Рис. 15

Входной вектор x перед подачей на вход нейросети нормируется, т.е. располагается на гиперсфере единичного радиуса в пространстве весов. При коррекции весов по  правилу (7) происходит поворот вектора весов в сторону входного вектора. Постепенное уменьшение скорости поворота a позволяет произвести статистическое усреднение входных векторов, на которые реагирует данный нейрон.

Проблемы, которые возникают при обучении слоя Кохонена, описаны в разделе 5.2.4

2. Символьный слой – нейроны этого слоя ассоциированы с символами алфавита (это не обязательно должен быть обычный буквенный алфавит, но любой, например, алфавит фонем). Этот слой осуществляет генерацию символов при распознавании и ввод символов при синтезе. Он представляет собой слой Гроссберга, обучающийся с учителем ([1], «Сеть встречного распространения»). Нейрон этого слоя функционирует обычным образом: вычисляет суммарный взвешенный сигнал на своих входах и при помощи линейной функции передает его на выход. Модификация весов связей при обучении происходит по следующему правилу:

                                               wijн = wijс + b(yj – wijс)xi,                (8)

где wijн, wijс – веса связей до и после модификации

b - скорость обучения, b<1

yj – выход нейрона

xi – вход нейрона

По этому правилу вектор весов связей стремится к выходному вектору, но только если активен вход, т.е. модифицироваться будут связи только от  активных в данный момент нейронов слоя Кохонена. Выходы же у символьного слоя бинарные, т.е. нейрон может быть активен (yj = 1) или нет (yj = 0), что соответствует включению определенного символа. Входной слой  совместно с символьным слоем позволяют сопоставить каждому классу входных сигналов определенный символ алфавита.

3. Эффекторный слой – этот слой получает сигналы от символьного слоя и также является слоем Гроссберга.Выходом слоя является  вектор эффекторов – элементов, активность которых управляет заданными параметрами в модели синтеза. Связь эффекторов с параметрами модели синтеза осуществляется через карту эффекторов. Этот слой позволяет сопоставить каждому нейрону символьного слоя (а следовательно, и каждому символу алфавита) некоторый вектор эффекторов (а следовательно, и определенный синтезируемый звук). Это слой обучается аналогично символьному слою.


Содержание раздела