WWW.KONF.X-PDF.RU
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Авторефераты, диссертации, конференции
 

«АЛГОРИТМЫ И УЗЛЫ ОБРАБОТКИ РЕЧЕВЫХ КОМАНД ПОДСИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ ИНФОРМАЦИОННОИЗМЕРИТЕЛЬНЫХ И УПРАВЛЯЮЩИХ СИСТЕМ ...»

На правах рукописи

АЛИМУРАДОВ Алан Казанферович

АЛГОРИТМЫ И УЗЛЫ ОБРАБОТКИ РЕЧЕВЫХ КОМАНД

ПОДСИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ ИНФОРМАЦИОННОИЗМЕРИТЕЛЬНЫХ И УПРАВЛЯЮЩИХ СИСТЕМ

Специальность 05.11.16 – Информационно-измерительные

и управляющие системы (приборостроение)

Автореферат

диссертации на соискание ученой степени

кандидата технических наук



ПЕНЗА 2015

Работа выполнена на кафедре «Информационно-измерительная техника и метрология» Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Пензенский государственный университет».

Научный руководитель – доктор технических наук, профессор Чураков Петр Павлович

Официальные оппоненты: Иосифов Валерьян Павлович, доктор технических наук, доцент, Институт сервиса и технологий (филиал) ФГБОУ ВПО «Донской государственный технический университет» (г. Пятигорск), профессор кафедры «Информационные системы, технологии и связь»;

Доросинский Антон Юрьевич, кандидат технических наук, ФГБОУ ВПО «Пензенский государственный технологический университет», доцент кафедры «Информационные технологии и системы»

Ведущая организация – ФГАОУ ВО «Самарский государственный аэрокосмический университет имени академика С. П. Королева (национальный исследовательский университет)»

Защита диссертации состоится 22 декабря 2015 г., в 14 часов, на заседании диссертационного совета Д212.186.02 в ФГБОУ ВПО «Пензенский государственный университет» по адресу: 440026, г. Пенза, ул. Красная, 40.

С диссертацией и авторефератом можно ознакомиться в библиотеке

ФГБОУ ВПО «Пензенский государственный университет» и на сайте:

http://dissov.pnzgu.ru/ecspertiza/alimypadov Автореферат разослан «____» __________ 2015 г.

Ученый секретарь диссертационного совета Светлов Анатолий Вильевич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Применение голосового управления в качестве интерфейса взаимодействия получило широкую популярность в информационно-измерительных и управляющих системах (ИИУС). Голосовое управление основано на технологии распознавания речи, представляющей собой обработку речевых сигналов с целью фильтрации и подавления шума, сегментации на информативные участки, определения информативных параметров, отражающих уникальные свойства речи. Корректное распознавание речи – одна из самых интересных и сложных задач голосового управления.

Значительную роль в создание и развитие технологии распознавания речи внесли российские и зарубежные ученые: Б. М. Лобанов, Т. К. Винцюк, А. В. Фролов, Г. В. Фролов, М. А. Сапожников, В. Г. Михайлов, Л. В. Златоусова, Л. Р. Рабинер, Р. В. Шафер, У. А. Ли, Д. Х. Клетт, Xuedong D.

Huang, Hsiao-Wuen Hon, Alex Acero и др. Их научные труды позволили решить множество фундаментальных и прикладных задач в области обработки речевых сигналов. Однако это не стало причиной снижения интереса к проблеме повышения эффективности обработки речевых сигналов, и работа в данной области в настоящее время ведется очень активно.

На сегодняшний день существует достаточное количество систем голосового управления (СГУ). 97 % этих систем представляют собой программные продукты для управления компьютеризированной техникой, и 3 % это устройства голосового управления. Среди производителей следует отметить зарубежные компании Google, Apple, Microsoft, Nuance, Linguatec, IBM и российские Insyte, Home Sapiens, Центр речевых технологий.

Наибольший интерес в СГУ представляют алгоритмы и узлы обработки речевых сигналов. Из-за низкой эффективности традиционных методов обработки речевых сигналов использование существующих алгоритмов и узлов в специализированных условиях становится непродуктивным, что существенно ограничивает применение голосового управления в специализированных ИИУС.

По этой причине актуальным представляется усовершенствование существующих и разработка новых алгоритмов и узлов с применением методов обработки речевых сигналов, обеспечивающих повышение эффективности голосового управления.

Объектом исследования являются системы и подсистемы голосового управления ИИУС специального назначения.





Предметом исследования являются алгоритмы построения и структуры узлов фильтрации и сегментации, выделения информативных параметров и анализа метрологических характеристик СГУ.

Целью диссертационного исследования является совершенствование существующих и разработка новых алгоритмов и узлов обработки нелинейных и нестационарных речевых сигналов на основе метода комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ), обеспечивающих повышение эффективности подсистем голосового управления ИИУС.

Задачи исследования:

1. Классификация и сравнительный анализ основных технических характеристик существующих СГУ с целью определения путей их совершенствования.

2. Классификация и сравнительный анализ методов адаптивной обработки нелинейных и нестационарных речевых сигналов, основанных на декомпозиции на эмпирические моды (ДЭМ), создание верифицированной базы данных речевых сигналов.

3. Разработка алгоритма и узла фильтрации нестационарных фоновых шумов с использованием метода КМДЭМ на основе анализа шумовых и энергетических характеристик эмпирических мод (ЭМ).

4. Разработка алгоритма и узла сегментации сигнал/пауза с использованием метода КМДЭМ на основе анализа логарифма энергетических характеристик ЭМ.

5. Разработка алгоритма и узла измерения частоты основного тона (ЧОТ) с использованием метода КМДЭМ на основе анализа логарифма энергетических характеристик и частотно-временного анализа ЭМ.

6. Разработка алгоритма и узла определения и распознавания мелчастотных кепстральных коэффициентов (МЧКК) с использованием метода КМДЭМ на основе анализа информационных и кепстральных характеристик ЭМ.

7. Реализация, исследование и внедрение подсистемы голосового управления ИИУС на основе разработанных алгоритмов и узлов.

Методы исследования. В работе использовались методы обработки речевых сигналов КМДЭМ, спектрального и статистического анализа, математического моделирования и теории распознавания образов. Для проведения исследований применялось программирование в средах MATLAB, LabVIEW, QT и C#.

Научная новизна работы:

1. Усовершенствованы алгоритм и узел фильтрации нестационарных фоновых шумов, основанные на методе КМДЭМ и анализе шумовых и энергетических характеристик ЭМ, определении моды, содержащей основной шум, с последующим компонентным анализом.

2. Разработаны оригинальные алгоритм и узел сегментации сигнал/пауза, основанные на методе КМДЭМ и анализе логарифма энергетических характеристик ЭМ и пороговой обработке кратковременных фрагментов с определением границ сигнала и пауз с учетом физиологического аспекта формирования речи.

3. Усовершенствованы алгоритм и узел измерения ЧОТ, основанные на методе КМДЭМ и анализе логарифма энергетических характеристик ЭМ с определением и частотно-временным анализом моды, содержащей основной тон (ОТ), и использованием функции оператора Тигра для измерения частоты.

4. Разработаны оригинальные, обладающие повышенной точностью алгоритм и узел определения и распознавания МЧКК, основанные на методе КМДЭМ и анализе информационных кепстральных характеристик ЭМ.

5. Предложена и реализована методика обработки речевых команд подсистемы голосового управления ИИУС в виде оптимизированной последовательности фильтрации нестационарных фоновых шумов, сегментации сигнал/пауза, измерения ЧОТ, определения и распознавания МЧКК.

6. Программно и структурно реализована подсистема голосового управления ИИУС на языках объектно-ориентированного программирования QT и C# для голосового управления ИИУС домашней автоматизации по беспроводному протоколу передачи данных Z-Wave.

Практическую значимость работы представляют:

1. Методика и узлы обработки речевых команд подсистем голосового управления ИИУС, позволяющие улучшить характеристики фильтрации нестационарные фоновых шумов, сегментации границ сигнала и паузы, измерения ЧОТ, определения и распознавания МЧКК.

2. Верифицированная база данных речевых сигналов.

3. Аппаратная реализация подсистемы голосового управления ИИУС на миникомпьютере Raspberry Pi Model B.

4. Структурная и электрическая схема соединений узлов аппаратнопрограммной реализации подсистемы голосового управления ИИУС домашней автоматизации по беспроводному протоколу передачи данных Z-Wave.

На защиту выносятся:

1. Классификация и результаты сравнительного анализа существующих СГУ и применяемых в них методов обработки речевых команд. Результаты анализа методов ДЭМ, их преимуществ и недостатков, пути их преодоления применительно к задачам обработки речевых команд в СГУ.

2. Технологический процесс обработки речевых команд подсистемы голосового управления ИИУС.

3. Основанные на методе КМДЭМ методика, алгоритмы и узлы обработки речевых команд, выполняющие задачи фильтрации нестационарных фоновых шумов, сегментации сигнал/пауза, измерения ЧОТ, определения и распознавания МЧКК.

4. Методика оценки эффективности алгоритмов построения и узлов обработки речевых команд, позволяющая провести объективный анализ результатов.

5. Результаты исследований в средах программирования Matlab, LabVIEW, подтверждающие эффективность разработанных алгоритмов и узлов обработки в сравнении с известными методами и системами.

6. Аппаратно-программная реализация методики обработки речевых команд в подсистеме голосового управления ИИУС домашней автоматизации по беспроводному протоколу передачи данных Z-Wave.

Реализация и внедрение результатов исследования.

Результаты теоретических и экспериментальных исследований использовались при выполнении работы по грантам:

«Разработка и организация производства системы голосового управления "Умным домом"» грант правительства Пензенской области по программе «Развитие инновационной деятельности в Пензенской области» по соглашению № 380 о предоставлении из бюджета Пензенской области субсидии малого (среднего) предпринимательства на создание собственного бизнеса в сфере инноваций от 20 января 2012 г.;

«Исследование методов, способов и средств эффективной обработки речевых сигналов при патологических отклонениях в работе системы органов дыхания и разработка программного модуля контроля и прогнозирования заболеваний органов дыхания по речи говорящего для терминала здоровья «Health Point» грант Федерального государственного бюджетного учреждения «Фонд содействия развитию малых форм предприятий в научно-технической сфере» по договору № 20963 от 1 апреля 2013 г. о предоставлении гранта на проведение научно-исследовательских работ;

«Разработка и исследование системы управления средствами технического назначения для людей с ограниченными возможностями»

грант Федерального государственного бюджетного учреждения «Фонд содействия развитию малых форм предприятий в научно-технической сфере»

по договору № 01/17249 от 5 апреля 2013 г о предоставлении гранта на проведение научно-исследовательских работ;

«Устройство голосового управления системой домашней автоматизации для людей с ограниченными возможностями» грант Федерального агентства по делам молодежи в рамках всероссийского конкурса молодежных проектов 2013 г. в номинации «Инновации» (приказ № 2359-р от 16 декабря 2013 г. Министерства образования и науки РФ);

«Система "Умный дом" для людей с ограниченными возможностями» грант Федерального агентства по делам молодежи в рамках всероссийского конкурса молодежных проектов 2014 г. в номинации «Инновации и научно-техническое творчество» (приказ № 2262-р от 14 ноября 2014 г.

Министерства образования и науки РФ);

«Исследование методов, алгоритмов и средств эффективной обработки речевых сигналов и разработка программного обеспечения голосового управления системой домашней автоматизации Z-Wave» грант Федерального государственного бюджетного учреждения «Фонд содействия развитию малых форм предприятий в научно-технической сфере» по договору (соглашению) № 0006792 ГС1/6792 от 23 января 2015 г. о предоставлении гранта на проведение научно-исследовательских и опытно-конструкторских работ.

Результаты исследования используются в подсистемах обработки речевых команд систем голосового управления (проходят испытания в ООО МИП «Центр коммерциализации речевых технологий», г. Пенза). Документы о внедрении представлены в приложении В.

Результаты теоретических и экспериментальных исследований внедрены в учебный процесс кафедры «Информационно-измерительная техника и метрология» ФГБОУ ВПО «Пензенский государственный университет» для подготовки бакалавров по направлениям 12.03.01 – «Приборостроение»: профиль подготовки 1 «Информационно-измерительная техника и технологии»; профиль подготовки 2 «Приборы и оборудование для нефтегазового комплекса».

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на всероссийских и международных конференциях, на инновационных и инвестиционных форумах: МНПК студентов и молодых ученых «Модели, системы, сети в экономике, технике, природе и обществе» (Пенза, 2012–2015); НТК с международным участием «Перспективные информационные технологии в научных исследованиях, проектировании и обучении ПИТ» (Самара, 2013, 2015); МНТК «Проблемы автоматизации и управления в технических системах» (Пенза, 2013–2015);

Всероссийская НТК «Информационные технологии в науке и производстве», (Самара, 2013); региональный молодежный форум «Открытые инновации – вклад молодежи в развитие региона» (Пенза, 2013); МНПК «Инженерные и научные приложения на базе технологий NI NIDays 2014»

(Москва, 2014); МНПК «Современные научные исследования: инновации и опыт» (Екатеринбург, 2014); Международная молодежная научная конференция «Молодежь и XXI век 2015»; (Курск, 2015), International Siberian Conference on Control and Communications (SIBCON-2015) (Omsk, 2015).

Публикации. По материалам диссертационной работы опубликовано 47 печатных работ, в том числе 6 статей в ведущих журналах перечня ВАК РФ и 6 статей в зарубежных изданиях, индексируемых в базах Scopus и Web of Science. Исследования и разработки отражены в 7 отчетах по НИОКР, получены 2 свидетельства о государственной регистрации программ для ЭВМ и 1 свидетельство о государственной регистрации базы данных.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, выводов, списка использованной литературы из 241 наименования и 3 приложений. Диссертация изложена на 222 страницах машинописного текста и содержит 98 рисунков, 36 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулированы цель и основные задачи исследования, показаны научная новизна и практическая ценность работы, приведены основные положения, выносимые на защиту.

В первой главе проводится анализ предметной области и рассматриваются особенности, параметры и характеристики речевого сигнала. Речевой сигнал это нелинейный и нестационарный сигнал сложной формы, образуемый артикуляционным отделом речевого аппарата человека с целью передачи информации. Как любой сигнал, речевой сигнал характеризуется измерительными параметрами, которые должны быть учтены при совершенствовании и разработке алгоритмов и узлов обработки речевых команд для СГУ. Голосовое управление это способ взаимодействия пользователя с ИИУС с помощью управляющих речевых команд, который сводится к задаче распознавания отдельных слов или словосочетаний.

Проведен обзор современного состояния СГУ и представлена их классификация по основным параметрам. В настоящее время существует достаточное количество СГУ, основным параметром которых является точность распознавания речи при различных отношениях сигнал/шум.

Проведенный анализ существующих систем показал необходимость увеличения точности распознавания за счет повышения помехоустойчивости.

Наибольший интерес в СГУ представляют применяемые в них алгоритмы и узлы обработки речевых сигналов. Однако в силу коммерческой тайны производители не предоставляют данную информацию.

Рассмотрены особенности обработки речевых команд в СГУ, и представлено подробное описание основных методов обработки, классификация которых представлена на рисунке 1. Каждая задача обработки речевых сигналов может быть решена только с помощью определенных методов. Данная классификация демонстрирует многообразие методов обработки речевых сигналов.

Из приведенной классификации следует, что повышения эффективности СГУ можно достичь путем улучшения характеристик узлов, решающих конкретные задачи обработки речевых сигналов. Одним из перспективных методов решения этих задач является метод ДЭМ. Суть этого метода состоит в том, что сигналы, используемые в обработке в качестве опорных, формируются из самого исходного сигнала. Это предопределило выбор направления работы и задач, решаемых в ней.

Рисунок 1 – Классификация методов обработки речевых сигналов Во второй главе рассмотрен технологический процесс обработки речевых команд в СГУ (рисунок 2), включающий регистрацию (1) – аудиозахват речевой команды в режиме реального времени и преобразование ее в цифровой вид; фильтрацию (2) – выделение информативных составляющих, подавление шумов и устранение естественных искажений, возникающих при формировании команды; определение информативных участков (3) – выделение определенных частей сигнала, содержащих информацию об уникальных свойствах речи; определение информативных параметров (4) – выявление амплитудно-частотных, спектрально-временных и кепстральных характеристик речевых команд; формирование базы данных шаблонов (5) и данных сигнала (6) – объединение всех видов информативных параметров в один вектор; распознавание (7) – сравнение поступившей в систему речевой команды с шаблоном из базы данных, полученным в ходе обучения СГУ.

Результаты анализа СГУ и применяемых в них методов обработки, показали, что повышения эффективности обработки речевых сигналов можно достичь формированием адаптивного, функционально зависимого от содержания самого сигнала базиса. Такой подход реализуется в математическом аппарате, называемом методом ДЭМ, являющимся новой технологией обработки нелинейных и нестационарных сигналов. В результате

ДЭМ из исходного речевого сигнала извлекается конечное число ЭМ и результирующий остаток:

I 1 IMFi (t ) rI (t ), x (t ) (1) i 1 где x(t) – речевой сигнал; I – количество ЭМ, полученных в результате декомпозиции; i – номер ЭМ; IMFi(t) – ЭМ, rI(t) – результирующий остаток.

Рисунок 2 – Технологический процесс обработки речевых команд в СГУ

Сравнительный анализ существующих методов декомпозиции выявил два основных метода: множественной декомпозиции на эмпирические моды (МДЭМ) и комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ).

Особенностью методов МДЭМ и КМДЭМ является многократное добавление к исходному речевому сигналу бесконечно малой амплитуды белого шума и вычислении среднего значения полученных ЭМ как конечного результата:

–  –  –

где yj(t) – зашумленный речевой сигнал; wj(t) – добавленный белый шум;

IMFji(t), rjI(t) – ЭМ и остаток, полученные при различных декомпозициях, j = 1, 2, …, J – количество циклов декомпозиций (добавлений к сигналу белого шума).

<

–  –  –

Рисунок 3 – Блок-схема алгоритма узла фильтрации на основе метода КМДЭМ Утолщенной линией отмечены блоки, введенные автором.

Загрузка...

Суть алгоритма узла фильтрации заключается в анализе шумовых и энергетических характеристик ЭМ (блоки 5, 6):

–  –  –

Рисунок 4 Блок-схема алгоритма узла сегментации на основе метода КМДЭМ Разработаны усовершенствованные алгоритм и узел измерения ЧОТ с использованием метода КМДЭМ (рисунок 5).

Рисунок 5 – Блок-схема алгоритм узла измерения ЧОТ на основе метода КМДЭМ Утолщенной линией отмечены блоки, введенные автором. Суть алгоритма узла измерения ЧОТ заключается в анализе логарифма энергетических характеристик ЭМ (блок 5) по формуле 7, в соответствии с ранее представленным алгоритмом.

По результатам анализа, используя пороговую обработку, определяется ЭМ с ОТ (блок 8):

LEthres. min LEi LEthers. max, (10) где LEthers.min и LEthers.max – пороговые значения, соответствующие минимальному и максимальному значению логарифма энергии ЭМ с ОТ соответственно; LEi – текущее значение логарифма энергии ЭМ.

Определение ЭМ с ОТ основано на предположении, что моды, содержащие вокализованную речь, имеют большую энергию, чем моды с невокализованной речью. По этой причине для дальнейшего анализа будут использоваться ЭМ, содержащие большую энергию.

Используя фильтр Чебышева, осуществляется фильтрация (блок 9).

Далее, применяя функцию оператора Тигра, производится измерение ЧОТ (блоки 911):

–  –  –

xab,i ( n ) x( n ) ( a IMFi 1 (n ) b IMFI i ( n), (13) i 0 i 0 где xab,i(n) – информативный сигнал; x(n) – исходный сигнал речевой команды; a, b – коэффициенты, определяющие участие ЭМ в формировании набора информативных сигналов сигнала.

По результатам анализа, используя кестральные характеристики ЭМ, осуществляется вычисление, нормализация и приращение МЧКК (блок 7).

Далее определяется наиболее приемлемый информативный сигнал, обеспечивающий наилучшую точность распознавания (блоки 9, 10).

Рисунок 6 Блок-схема алгоритма узла определения и распознавания МЧКК с использованием метода КМДЭМ В третьей главе предложена и реализована методика оценки эффективности узлов обработки речевых команд, позволяющая провести объективный анализ результатов работы алгоритмов. Создана верифицированная база данных, состоящая из 2000 чистых речевых сигналов (звуков, слов и словосочетаний), произнесенных 200 людьми (мужчинами и женщинами) по 10 раз, длительностью записи не менее 10 000 мс с частотой дискретизации 8000 Гц и разрядностью квантования 16 бит.

В пакете прикладных программ проведены исследование и анализ критериев оценки эффективности разработанных алгоритмов и узлов.

Окончательные результаты исследования сравнивались с известными алгоритмами и методами.

Эффективность фильтрации нестационарных фоновых шумов оценивалась посредством анализа выходного значения отношения сигнал/шум:

A SNROUT 20 log10 out. signal, (14) A out.noise где Asignal, Anoise амплитудное значение полезного сигнала и шума.

На рисунке 7,а представлены результаты фильтрации в сравнении с известными методами: метод на основе дискретного косинусного преобразования (Discrete Cosine Transform, DCT) с мягкой пороговой обработкой (SDCT); метод на основе двухэтапного повышения разборчивости речи (Two-Stage Speech Enhancement, TSSE); метод на основе жесткой и мягкой пороговой обработки (Hard and Soft Thresholding, HST); метод на основе взвешенного вычитание шума и слепого разделения сигнала (Weighted Noise Subtraction and Blind Signal Separation, WNS+BSS).

–  –  –

Как видно из результатов, разработанный узел обеспечивает минимальное значение остаточного шума и имеет наилучший результат SNROUT в среднем: на 24 % лучше, чем метод SDCT; на 23 % лучше, чем метод TSSE; на 16 % лучше, чем метод HST; на 25 % лучше, чем метод WNS+BSS.

Эффективность сегментации сигнал/пауза осуществлялась посредством анализа значений коэффициента действительных обнаружений сигнала:

Scor. speech DRspeech 100 %, (15) Scor. speech Sn.cor. speech где Scor.speech действительный фрагмент сигнала; Sn.cor.speech мнимый фрагмент сигнала.

На рисунке 7,б представлены результаты сегментации сигнал/пауза в сравнении с известными методами: метод на основе кратковременной энергии (Short-time Energy, STE) и количества переходов сигнала через нуль в короткие промежутки времени (Short-time Zero-crossing Rate, ZCR);

метод на основе информационной энтропии (Information Entropy, IE); метод на основе МЧКК (Mel-frequency cepstrum coefficients, MFCC). Как видно из результатов, разработанный узел обеспечивает наилучший результат DRspeech: в среднем на 17 % лучше, чем метод STE; на 14 % лучше, чем метод STE + ZCR; на 9 % лучше, чем метод IE; на 7 % лучше, чем метод MFCC.

Эффективность измерения ЧОТ осуществлялась посредством анализа значений коэффициента мелких ошибок:

f ОТ,true ( s ) f ОТ,est ( s ) S FPE MFPE 100 %, (16) S FPE f ОТ,true ( s ) s 1 где SFPE количество вокализованных фрагментов без грубых ошибок;

fОТ,true истинное значение ЧОТ; fОТ,est оценочное значение ЧОТ; s номер вокализованного фрагмента.

На рисунке 7,в представлены результаты измерения ЧОТ в сравнении с известными методами: метод на основе устойчивого алгоритма отслеживания ОТ (Robust Algorithm for Pitch Tracking, RAPT); метод на основе устойчивого алгоритма отслеживания мгновенного значения ОТ (Instantaneous Robust Algorithm for Pitch Tracking, IRAPT); метод на основе алгоритма измерения ОТ пилообразной формы (Sawtooth Waveform Inspired Pitch Estimator, SWIPE); метод на основе автокорреляционной функций и ее модификаций («YIN»). Как видно из результатов, разработанный узел обеспечивает наилучший результат MFPE в среднем: на 32 % лучше, чем метод RART; на 21 % лучше, чем метод IRART; на 29 % лучше, чем метод SWIPE;

на 34 % лучше, чем метод «YIN».

Эффективность определения и распознавания МЧКК осуществлялась посредством анализа точности распознавания:

Wtrue T 100 %, (17) Wtotal где T точность распознавания; Wtrue правильно распознанные речевые команды; Wtotal общее количество речевых команд.

На рисунке 7,г представлены результаты определения и распознавания МЧКК в сравнении с известными методами определения МЧКК, используемыми в готовых программных компонентах распознавания с открытым исходным кодом: «CMU Sphinx», «RWTH ASR» (RASR), «Julius»

и «Simon». Как видно из результатов, разработанный узел обеспечивает наилучшее значение точности распознавания T в среднем: на 4,4 % лучше, чем метод «CMU Sphinx»; на 6,3 % лучше, чем метод «RWTH ASR»;

на 4,8 % лучше, чем метод «Julius»; на 5,5 % лучше, чем метод «Simon».

В четвертой главе разработана методика практической обработки речевых команд для подсистемы голосового управления ИИУС, основанная на ранее предложенных алгоритмах и узлах. Особенность методики обработки заключается в оптимизации повторяющихся в каждом их четырех алгоритмов блоков обработки (рисунок 8).

Рисунок 8 – Методика обработки речевых команд подсистемы голосового управления ИИУС На базе регионального центра технологий National Instruments кафедры «Радиотехника и радиоэлектронные системы» ФГБОУ ВПО «Пензенский государственный университет» реализован виртуальный прибор подсистемы голосового управления в среде LabVIEW. Пример лицевой панели виртуального прибора представлен на рисунке 9.

Рисунок 9 – Лицевая панель виртуального прибора подсистемы обработки речевых команд Лицевая панель представляет собой пример голосового управления с помощью пяти речевых команд (вперед, назад, вправо, влево и стоп), позволяет графически проиллюстрировать сигнал речевой команды до и после обработки, а также демонстрирует результат распознавания.

На рисунке 10 представлена разработанная структурная схема подсистемы голосового управления ИИУС домашней автоматизации, которая состоит из следующих модулей: обработки, визуализации, регистрации, питания, аудио и Z-Wave.

–  –  –

Разработана электрическая схема соединений подсистемы голосового управления и проведены выбор и обоснование элементной базы: модуль обработки реализован на базе миникомпьютера Raspberry Pi Model B; модуль визуализации на базе TFT-дисплея 2.8" USB TFT display for Raspberry Pi; модуль регистрации на базе микрофона Мини USB 2.0 микрофон MIC;

модуль питания на AC/DC конвертора Traco Power TML 05105; модуль аудио на базе динамической головки 26CR08FE.

Для обеспечения работы подсистемы обработки речевых команд СГУ и совместимости с персональным компьютером на языке объектно-ориентированного программирования C# разработано специальное программное обеспечение, являющееся надстройкой над программным обеспечением управления по беспроводному протоколу передачи данных Z-Wave.

В приложениях представлены:

– в приложении А – листинг программы «Определение частоты основного тона речевого сигнала»;

– в приложении Б – листинг программы «Подавления помех в речевых сигналах»;

– в приложении В – документы о внедрении результатов диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Проведена классификация и сравнительный анализ существующих СГУ и применяемых в них методов обработки речевых команд. Проведен анализ методов ДЭМ, выявлены преимущества, недостатки и пути их преодоления применительно к задачам обработки речевых команд.

2. Предложен технологический процесс обработки речевых команд подсистемы голосового управления ИИУС. Разработана верифицированная база данных, состоящая из 2000 речевых сигналов (звуков, слов и словосочетаний).

3. Предложены и разработаны усовершенствованный алгоритм и узел фильтрации нестационарных фоновых шумов с использованием метода КМДЭМ, улучшающие в среднем на 22 % отношение сигнал/шум SNROUT по сравнению с известными методами.

4. Предложены и разработаны оригинальный алгоритм и узел сегментации сигнал/пауза с использованием метода КМДЭМ, улучшающие в среднем на 11 % коэффициент действительных обнаружений сигнала DRspeech по сравнению с известными методами.

5. Предложены и разработаны усовершенствованный алгоритм и узел измерения ЧОТ с использованием метода КМДЭМ, уменьшающие в среднем на 29 % коэффициент мелких ошибок MFPE по сравнению с известными методами.

6. Предложены и разработаны оригинальный алгоритм и узел определения и распознавания МЧКК с использованием метода КМДЭМ, повышающие в среднем на 9 % точность распознавания T по сравнению с известными методами.

7. Предложена методика обработки речевых команд подсистемы голосового управления ИИУС, основанная на разработанных алгоритмах и узлах обработки и представляющая собой оптимизированную последовательность операций: фильтрации нестационарных фоновых шумов, сегментации сигнал/пауза, измерения ЧОТ, определения и распознавания МЧКК.

8. Разработаны структурная схема и схема электрическая соединений подсистемы голосового управления ИИУС домашней автоматизации по беспроводному протоколу передачи данных Z-Wave.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендованных ВАК РФ

1. Алимурадов, А. К. Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпирических мод / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Известия высших учебных заведений. Поволжский регион. Технические науки. 2012. № 2 (22). С. 5061.

2. Алимурадов, А. К. Интеллектуальная обработка речевых сигналов в системах автоматического управления / А. К. Алимурадов, А. Ю. Тычков // Известия кабардино-балкарского государственного университета. 2012. Т. 2. № 5. С. 6667.

3. Алимурадов, А. К. Программная реализация алгоритма распознавания речевых сигналов в графической среде программирования LabVIEW / А. Ю. Тычков, А. К. Алимурадов, М. В. Французов, П. П. Чураков // Метрология. 2015.

№ 3. С. 1725.

4. Алимурадов, А. К. Методы повышения эффективности распознавания речевых сигналов в системах голосового управления / А. К. Алимурадов, Ф. Ш. Муртазов // Измерительная техника. 2015. № 10. С. 2024.

5. Алимурадов, А. К. Помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» для систем распознавания речи / А. К. Алимурадов, П. П. Чураков // Известия высших учебных заведений. Поволжский регион. Технические науки. 2015. № 2 (34). С. 8294.

6. Алимурадов, А. К. Исследование частотно-избирательных свойств методов декомпозиции на эмпирические моды для оценки частоты основного тона речевых сигналов / А. К. Алимурадов // Труды МФТИ. 2015. Т. 7, № 3. С. 5668.

Публикации в других изданиях

7. Алимурадов, А. К. Определение частоты основного тона речевого сигнала с использованием метода множественной декомпозиции на эмпирические моды / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Модели, системы, сети в экономике, технике, природе и обществе. 2012. № 1 (2). С. 121126.

8. Алимурадов, А. К. Выбор оптимального набора информативных параметров речевых сигналов для систем голосового управления / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Измерение. Мониторинг. Управление. Контроль. 2013. № 1 (3). С. 1620.

9. Алимурадов, А. К. Применение преобразования Гильберта-Хуанга в задаче выделения информативных признаков речевых сигналов / А. К. Алимурадов, А. Ю. Тычков // Международный научно-исследовательский журнал.

2013. № 5-1 (12). С. 5758.

10. Алимурадов, А. К. Исследование и разработка верифицированной базы звуков речи для анализа речевых сигналов / А. К. Алимурадов, А. Ю. Тычков, Ю. С. Квитка, Д. А. Ярославцева // Современные проблемы компьютерных наук (СПКН-2013) : сб. материалов I МНПК. Пенза, 2013. С. 156159.

11. Алимурадов, А. К. Обзор параметров и классификация систем голосового управления / А. К. Алимурадов // Открытые инновации вклад молодежи в развитие региона : сб. материалов регионального молодежного форума : в 2 т.

Пенза : Изд-во ПГУ, 2013. Т. 1. С. 1316.

12. Алимурадов, А. К. Обработка речевых команд в системах голосового управления / А. К. Алимурадов // Измерение. Мониторинг. Управление. Контроль. 2014. № 1 (7). С. 5057.

13. Чураков, П. П. Изучение методов анализа и обработки сигналов : учеб.

пособие : в 2 ч. / П. П. Чураков, А. Ю. Тычков, А. К. Алимурадов. Пенза :

Изд-во ПГУ, 2014. Ч. 1 : Современные методы обработки речевых сигналов. 72 с.

14. Алимурадов, А. К. Применение комплементарной множественной декомпозиции на эмпирические моды для анализа речевых сигналов / А. К. Алимурадов, Ю. С. Квитка // Измерение. Мониторинг. Управление. Контроль. 2014.

№ 4 (10). С. 6975.

15. Чураков, П. П. Разработка виртуального устройства декомпозиции на эмпирические моды для обработки биомедицинских сигналов / П. П. Чураков,

А. Ю. Тычков, А. К. Алимурадов, А. В. Кузьмин // Инженерные и научные приложения на базе технологий NI NIDays-2014 : сб. тр. ХIII МНПК. М. :

ДМК-пресс, 2014. С. 173175.

16. Алимурадов, А. К. Применение метода декомпозиции на эмпирические моды в задачах обработки речевых сигналов / А. К. Алимурадов, А. Ю. Тычков // Современные научные исследования: инновации и опыт : тр. VI МНПК. Екатеринбург : Изд-во межотраслевого института «Наука и образование», 2014.

С. 1215.

17. Alimuradov, A. K. Speech signals filtering using the ensemble empirical mode decomposition method and the intrinsic mode functions energy assessment / A. K. Alimuradov // International Journal of Applied Engineering Research. 2015.

Vol. 10, N. 2. P. 31753185.

18. Kuzmin, A. V. The development of effective noise biomedical signals processing method / A. V. Kuzmin, A. Yu. Tychkov, A. K. Alimuradov // International Journal of Applied Engineering Research. 2015. Vol. 10, № 3. P. 8527 8531.

19. Алимурадов, А. К. Адаптивный алгоритм предварительной обработки речевых сигналов для оценки частоты основного тона / А. К. Алимурадов // Проблемы автоматизации и управления в технических системах 2015 : сб. тр.

XXXI МНТК. Пенза : Изд-во ПГУ, 2015. С. 103106.

20. Alimuradov, A. K. Noise-robust speech signals processing for the voice control system based on the complementary ensemble empirical mode decomposition, 2015 / A. K. Alimuradov, P. P. Churakov / International Siberian Conference on Control and Communications (SIBCON-2015), May 2123, 2015, Russia. Omsk,

2015. 6 p.

21. Development of Virtual Device for Empirical Modes Decomposition of Biomedical Signals, 2015 / P. P. Churakov, A. Yu. Tychkov, A. K. Alimuradov, A. V. Kuzmin // International Siberian Conference on Control and Communications (SIBCON-2015), May 2123, 2015, Russia. Omsk, 2015. 3 p.

Свидетельства о государственной регистрации

22. Свидетельство о государственной регистрации базы данных № 2013621400. Верифицированная база речевых сигналов / А. Ю. Тычков, А. К.

Алимурадов, Ю. С. Квитка, Д. А. Ярославцева // Программы для ЭВМ, базы данных, топологии интегральных микросхем ; заявл. 13.09.13 ; опубл. 06.10.2013.

23. Свидетельство о государственной регистрации программы для ЭВМ № 2012615470. Определение частоты основного тона речевого сигнала / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Программы для ЭВМ, базы данных, топологии интегральных микросхем ; заявл. 26.04.12 ; опубл. 18.06.2012.

24. Свидетельство о государственной регистрации программы для ЭВМ № 2012615337. Программа подавления помех в речевых сигналах / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Программы для ЭВМ, базы данных, топологии интегральных микросхем ; заявл. 26.04.12 ; опубл. 14.06.2012.

–  –  –

АЛГОРИТМЫ И УЗЛЫ ОБРАБОТКИ РЕЧЕВЫХ КОМАНД

ПОДСИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ ИНФОРМАЦИОННОИЗМЕРИТЕЛЬНЫХ И УПРАВЛЯЮЩИХ СИСТЕМ

Специальность 05.11.16 – Информационно-измерительные и управляющие системы (приборостроение)

–  –  –



Похожие работы:

«Великовский Дмитрий Юрьевич КРИСТАЛЛЫ СЕМЕЙСТВА КАЛИЙ-РЕДКОЗЕМЕЛЬНЫХ ВОЛЬФРАМАТОВ КАК МАТЕРИАЛЫ ДЛЯ АКУСТООПТИКИ Специальность: 01.04.01 «Приборы и методы экспериментальной физики» АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2015 2 -Работа выполнена в ФГБУН «Научно-технологический центр...»









 
2016 www.konf.x-pdf.ru - «Бесплатная электронная библиотека - Авторефераты, диссертации, конференции»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.