Использование нейросетей для анализа звуковой информации


Распознавание речи


Задачу распознавания речи считают средоточием всех задач искусственного интеллекта [2]. При построении систем распознавания речи  охватывается очень широкий круг вопросов: от построения датчиков, позволяющих вводить речь в компьютер, до сложнейших баз данных, позволяющих использовать смысловую нагрузку речи и распознавать слова в контексте целых предложений и фраз. При этом отдельные задачи в этой области далеко не тривиальны.

Что понимается под распознаванием речи? Это может быть преобразование речи в текст,  распознавание и выполнение определенных команд, выделение из речи каких либо характеристик (например, идентификация диктора, определение его эмоционального состояния, пола, возраста, и т.д.) – все это в разных источниках может попасть  под это определение.  В моей работе  под распознаванием речи понимается  отнесение звуков речи или их последовательности (фонем, букв, слов) к какому-либо классу. Затем этому классу могут быть сопоставлены символы алфавита – получим систему преобразования речи в текст, или определенные действия – получим систему выполнения речевых команд. Вообще этот способ обработки речевой информации может использоваться на первом уровне какой-либо системы с гораздо более сложной структурой. И от эффективности этого классификатора будет зависеть эффективность работы системы в целом.



Содержание раздела