Использование нейросетей для анализа звуковой информации


Современные цифровые вычислительные машины намного


Современные цифровые вычислительные машины намного превосходят человека по способности производить числовые и символьные вычисления, однако отличаются крайне низкой эффективностью в задачах, связанных с обработкой данных, представленных большим количеством нечеткой и неполной информации  (например, распознавания образов),  тогда как мозг живых существ, каждый элемент которого обладает сравнительно низким быстродействием, справляется с такими задачами за доли секунды. Приняв гипотезу, что обработка информации мозгом осуществляется путем передачи электрохимических сигналов между отдельными вычислительными элементами, возникает вопрос, а можно ли искусственно смоделировать такую вычислительную систему? Таким образом, в классической работе МакКаллока и Питтса 1943 г. впервые было обозначено новое научное направление  - теория нейронных сетей. В работе утверждалось, что, в принципе, любую арифметическую или логическую функцию можно реализовать с помощью простой нейронной сети. В настоящее время происходит бурный рост теории нейронных сетей,  и в ближайшем будущем ожидается достижение значительных результатов, в первую очередь в связи с успехами в областях, связанных с аппаратной реализации нейросетевых моделей.
Исследование нейросетей обусловлено также потребностью в увеличении роста производительности вычислительных систем. Увеличение сложности и быстродействия современных последовательных процессоров скоро упрется в границы, обусловленные физическими законами (предел интеграции и тактовой частоты). Выход – использовать параллельные вычислительные системы, но при этом возникает другая проблема – сложность написания эффективных алгоритмов для  параллельной обработки без излишнего дублирования действий. Нейросетевая обработка информации, одним из принципов которой является массовый параллелизм, позволяет решить эту проблему. Возможно, теория нейронных сетей позволит не только разрабатывать алгоритмы для таких узких систем, как нейроподобные сети, но и позволит перенести результаты на более широкий класс параллельных вычислительных систем при  большом числе составляющих их элементов.


Ещё одной  причиной пристального внимания к нейросетям является высокая степень самоорганизации, присущая многим нейросетевым алгоритмам, т.е. на основе нейросетей легко можно создавать самообучающиеся адаптивные вычислительные системы, построение и настройка которых намного проще написания программ для современных последовательных компьютеров.
Теоретическое исследование нейросетевых алгоритмов ведется уже давно, и на данный момент они уже широко применяются для решения практических задач. В связи с очевидной конкурентоспособностью этого способа обработки информации по сравнению с существующими на сегодняшний момент традиционными способами особый интерес представляет проблема определения круга задач, для которых было бы эффективным применение нейросетевых алгоритмов.  Распознавание образов – это одна из задач, успешно решаемых нейросетями. Одним из приложений теории распознавания образов является распознавание речи. Проблема распознавания речи как одно из составляющих искусственного интеллекта давно привлекала исследователей, и на сегодняшний день хоть и достигнуты определенные успехи, она остается открытой.  Объединенная с проблемой синтеза речи, она представляет очень интересное поле для исследований.
В работе сделана попытка создать основанную на нейросетевой обработке данных интегрированную самообучающуюся систему, в которой  в отличие от большинства существующих систем  объединены алгоритмы распознавания и синтеза речи (при обучении система одновременно учится как распознаванию, так и синтезу). На начальном этапе программистом в неё не закладывается никакая информация, обучение происходит просто путем подачи на вход примеров.  Такие самообучающиеся системы обладают многими полезными свойствами, выделяющими их из класса остальных вычислительных систем (см. раздел Самообучающиеся системы). А реализация таких системы на основе  нейросетевых алгоритмов наделяет их значительной вычислительной мощью и простотой программирования.
В работе ставились следующие задачи:


§        Исследование методов ввода, обработки и анализа звуковых сигналов при помощи компьютера.
§        Изучение специфики речевых сигналов, определение их характерных свойств и  построение на основе этих знаний модели распознавания и синтеза речи
§        Решение проблем, возникающих при практическом применении нейросетевых алгоритмов;
§        Формулировка общих принципов построения самообучающихся систем и их применение на примере системы автоматического распознавания и синтеза речи
§        Построение инструментальной базы на персональном компьютере для проведения вышеперечисленных исследований.
§        создание полной поддерживающей документации для возможности использования системы другими исследователями.
Для решения этих задач была разработана интегрированная система, программно реализованная в среде Windows на IBM-совместимом  персональном компьютере; была достигнута открытость всех алгоритмов (т.е. возможность  управления и контроля над всеми процессами в ходе обучения   и  работы).   Для построения удобного пользовательского интерфейса использовалась среда разработки Borland C++ Builder 4.0.  Параллельно с разработкой системы были созданы следующие инструментальные средства:
§        Инструмент для спектрального анализа речи, как записанной в файлы, так и в реальном времени
§        Инструмент для синтеза звуков речи вручную, основанный на формантно-голосовой модели
§        Инструмент для визуализации процессов обучения и распознавания в используемой нейросетевой модели
§        Инструмент для записи звука в файлы на жестком диске
Сама система представляет собой программно смоделированную нейросеть, вспомогательные процедуры по вводу, обработке и выводу сигналов, и процедуры визуализации работы всех алгоритмов.Имеется возможность выбрать конфигурацию будущей системы, для каждой конфигурации создается отдельный проект с возможностью сохранения на диск и восстановления.

Содержание раздела