Теория адаптивного резонанса
1. Идея метода
Теория адаптивного резонанса является одной из самых развитых и продуманных систем нейросетевой обработки информации, впервые была предложена в начале 70-х годов и детализирована в работах Гроссберга. Её стержнем является модель нейронной сети и алгоритмы управления ею, всё вместе образует самостоятельную систему, которая способна самообучаться распознаванию образов различной степени сложности. Она относит входной образ к одному из классов, на который он больше всего похож. Если входной образ не соответствует ни одному из запомненных, создается новый класс путем его запоминания. Если найден образ, с определенным допуском соответствующий входному, то он модифицируется так, чтобы стать ещё больше похожим на входной.
2. Архитектура системы
Архитектура системы изображена в виде блок-схемы на рис. 1:
Теория адаптивного резонанса
F1 – первое нейронное поле
F2 – второе нейронное поле
КВП – кратковременная память
ДВП – долговременная память
X, I, V, S – паттерны активности
УГВ – управляемый генератор возбуждения
mij, mji – матрицы весов связей, реализующие ДВП
g – порог бдительности
Рис. 1
3. Алгоритм работы
Функционирование системы происходит следующим образом:
1. Входной образ I подается на вход F1
2. Наличие I на входе F1 включает УГВ1, который выдает на F сигнал подвозбуждения G (для поля F1 действует правило «2 из 3», в соответствии с которым нейрон становится активным только тогда, когда он возбуждается сигналами одновременно с двух источников)
3. После «включения» УГВ1 на выходе F1 появится паттерн активности X, совпадающий с I. Из-за идентичности I и X подсистемой ориентации не генерируется сигнал торможения КВП F2 (т.е. УГВ2 не включен)
4. Сигнал X с F1 приходит по связям mij и трансформируется во входной вектор S поля F2
5. F2 представляет собой аналог карты признаков Кохонена (см.
«Сети с латеральным торможением»), для случая когда пузырек активности сосредоточен в одном нейроне. Т.о. после подачи на вход F2 паттерна S на выходе появляется паттерн Y, который представляет собой гипотезу системы относительно того, на какой из классов больше похож входной образ I
6. Паттерн Y проходит сверху вниз через связи mji
и преобразуется в паттерн-шаблон V, который представляет собой декодированный след памяти, соответствующий эталонному образцу того класса, к которому был отнесен I
7. Теперь в поле F1 поступают два паттерна: I (снизу) и V (сверху). Наличие активности F2 отключает УГВ1, и согласно правилу «2 из 3» в F1 останутся активными только те нейроны, которые получают возбуждение и от I, и от V. Следовательно, если прочитанный паттерн-шаблон V сильно отличается от I, активность F1 значительно тормозится. Теперь на выходе F1 – паттерн X*
8. Вычисляется отношение размеров |X*| к размеру |I|. Полученная величина сравнивается с «порогом бдительности» g.
|
|
9. УГВ2 не генерирует сигнал сброса, система переходит в стабильное состояние 10. В устойчивом состоянии происходит обучение системы. Возможны два варианта: 1) Поиск привел к активации уже имеющегося эталона (т.е. в КВП F2 возбудился нейрон, соответствующий одному из известных классов). В этом случае обучение может рафинировать эталон (содержащийся в mji) и критерий допуска к нему (mij) так, чтобы в следе ДВП сохранились только общие с I признаки. 2) Поиск привел к незанятому нейрону в F2 (т.е. I не был отнесён ни к одному из классов, но его эталон содержался в mji). В этом случае обучение добавит к уже существующим новый эталон, совпадающий с I. |
9. УГВ2 генерирует сигнал, тормозящий F2 (сигнал сброса) 10. Это приведет к снятию паттерна V с входа F1, и в поле F1 восстановится первоначальный паттерн X 11. Пройдя через mij, паттерн X преобразуется в S 12. S не сможет активировать первоначальный паттерн Y из-за торможения, поэтому активируется близкий к нему Y* 13. Y* проходит через mji и преобразуется в V* 14. Для V* повторяются шаги с [7] |
4. Обучение
Следы долговременной памяти подчиняются правилу обучения (1):
, (1)
где xi – выход в F1,
yi – выход в F2,
k=const,
Eij - коэффициент “забывания”.
Вследствие забывания следы ДВП между активными нейронами в F2 и неактивными в F1 исчезают, что приводит к их уточнению входным образом. Для связей сверху вниз Eij=1, а для связей снизу вверх
, (2)
где L=const.
Такое задание Eij обеспечивает выполнение правила Вебера: при обучении снизу вверх следы при запоминании паттерна X с меньшим количеством активных нейронов должны быть больше, чем у паттерна с большим количеством активных нейронов при прочих равных условиях. Такая зависимость может быть достигнута путем конкуренции между следами ДВП за синаптические ресурсы нейронов F2, что и описывается формулой (2).