Проблемы, возникающие при распознавании речи

Во-первых, звуки речи различаются по длительности. Один и тот же звук, но произнесенный в разных словах, значительно варьируется по длительности. Например, длительность звука а в слове сад составляет 250-300 мс, а в слове садовод около 60 мс. Опытным путем установлена постоянная времени человеческого слуха, т.е. минимальная длительность звука, при которой ухо может проанализировать, узнать это звук. Эта величина равняется приблизительно 30-50 мс.

Во-вторых, желательно, чтобы система распознавания речи была независима от диктора. Но голоса отдельных людей очень сильно отличаются друг от друга, так что решение этой проблемы является непростой задачей.

В-третьих, речь даже одного человека подвержена сильным изменениям в результате разного эмоционального состояния говорящего. При этом может меняться темп речи, высота, ширина динамического диапазона (вариации по частоте и громкости).

В-четвертых, при распространении звука в пространстве он подвергается довольно сильным искажениям. Такие эффекты, как эхо, реверберация, изменение спектрального состава в результате неоднородного поглощения звука в среде, и т.д., очень сильно искажают звук.

Очевидно, что о простой записи слов в базу данных и последующем распознавании речи путем сравнения с записанными образцами не может быть и речи. Два временных представление звука речи даже для одного и того же человека, записанные в один и тот же момент времени, не будут совпадать. Необходимо искать такие параметры речевого сигнала, которые полностью описывали бы его (т.е. позволяли бы отличить один сигнал от другого), но были бы инвариантны относительно описанных выше вариаций речи. Полученные таким образом параметры должны затем сравниваться с образцами, причем это должно быть не простое сравнение на совпадение, а поиск наибольшего соответствия. Это вынуждает искать нужную форму расстояния в найденном параметрическом пространстве.

При определении объема хранимых системой данных также возникают определенные трудности. Как записать практически бесконечное число вариаций звуков речи в отведенный размер памяти? Очевидно, что здесь не обойтись без какой-либо формы статистического усреднения. Ещё одна проблема – уменьшение быстродействия системы при обработке большого количества данных, а ведь распознавание речи в большинстве случаев должно происходить в реальном времени!

В разделе 4.3. показано, что использование нейросетевых алгоритмов позволяет решить большинство перечисленных проблем.

Содержание раздела