WWW.KONF.X-PDF.RU
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Авторефераты, диссертации, конференции
 

«Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии ...»

На правах рукописи

Соловьева Елена Сергеевна

Методы и алгоритмы обработки, анализа речевого

сигнала для решения задач голосовой биометрии

Специальность: 05.13.01 – Системный анализ, управление и

обработка информации (приборостроение)

Автореферат диссертации на соискание ученой степени

кандидата технических наук

Москва – 2008

Работа выполнена на кафедре биомедицинских систем Московского



государственного института электронной техники (технического

университета)

Научный руководитель: доктор физико-математических наук, профессор Селищев Сергей Васильевич

Официальные оппоненты: доктор технических наук, профессор Спиридонов Игорь Николаевич кандидат технических наук Прилуцкий Дмитрий Анатольевич

Ведущая организация:

Федеральное государственное унитарное предприятие «Специализированное конструкторское бюро радиоэлектронной аппаратуры «Радэл»

Защита диссертации состоится «___» _________ 2008 г. в _____ часов на заседании диссертационного совета Д 212.134.02 при Московском государственном институте электронной техники (техническом университете) в ауд. 3103 по адресу: 124498, Москва, Зеленоград, проезд 4806, д.5, МИЭТ.

С диссертацией можно ознакомиться в библиотеке МИЭТ.

Автореферат разослан «_____» ____________ 2008 г.

Соискатель:

Ученый секретарь диссертационного совета, доктор технических наук _______________А.В. Гуреев

Общая характеристика работы

Актуальность темы. Биометрия в настоящее время переживает период бурного развития. Во многом этот рост связан с решениями правительств ведущих государств о применении биометрических технологий в паспортно-визовых документах.

Наибольшее распространение получили системы идентификации по отпечаткам пальцев, однако в последние годы наблюдается повышенный интерес к голосовой биометрии. Это связано с такими преимуществами голосовой биометрии перед остальными подходами как: использование стандартного оборудования (обычного микрофона, телефона, ПК), бесконтактность, возможность получения дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности).

Одно из самых перспективных применений голосовой биометрии – использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (счет в банке, авторизация действия или восстановление пароля). Второе применение – получение дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности). Данное применение является востребованным в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных, или оценить его психоэмоциональное состояние.

Основным недостатком систем идентификации по голосу является использование характеристик речи, которые подвержены влиянию психоэмоционального состояния человека, что снижает процент правильной идентификации. Кроме того, существующие в настоящее время системы не обеспечивают набор методик расчета характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния. Таким образом, разработка интегрированного программно-аппаратного комплекса для решения задач голосовой биометрии является актуальной темой.

Цель работы и задачи исследования. Целью данной диссертационной работы являлось создание методов и алгоритмов для обработки и анализа записей речевого сигнала с целью выявления индивидуальных характеристик голосового тракта диктора для решения основных задач голосовой биометрии, таких как идентификация диктора, определение его акцента/диалекта, антропометрических характеристик и психоэмоционального состояния.

Для достижения поставленной цели в диссертационной работе были решены следующие основные задачи:

1. Исследование и анализ существующих систем и методов для решения задач голосовой биометрии.

2. Разработка методики сбора баз данных и предобработки записей речевого сигнала для выявления информативных участков речи, учитывая специфику решаемой задачи голосовой биометрии.





3. Разработка методов и алгоритмов для расчета основных характеристик голосового тракта человека на основе линейной и нелинейной модели речеобразования.

4. Разработка методов и алгоритмов для классификации основных характеристик голосового тракта человека с целью решения задач голосовой биометрии.

5. Проведение исследований с целью определение эффективного набора речевых характеристик и оптимальных параметров классификаторов для решения задач голосовой биометрии.

6. Практическая реализация разработанных методов и алгоритмов при создании программно-аппаратного комплекса, предназначенного для решения задач голосовой биометрии.

7. Апробация методов и алгоритмов на доступных базах данных.

Научная новизна полученных результатов состоит в теоретическом обосновании, экспериментальном обеспечении и разработке эффективных алгоритмов и методов анализа и классификации речевого сигнала для решения задач голосовой биометрии.

В ходе выполнения диссертационной работы получены следующие научные результаты.

1. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.

2. С помощью однофакторного дисперсионного анализа выявлен эффективный набор речевых характеристик для определения психоэмоционального состояния диктора.

3. Предложен оптимальный набор параметров классификатора психоэмоционального состояния на основе многослойного перцептрона.

4. Предложен алгоритм для определения пола диктора, использующий значения Q10 (квантиль 10%) по гистограмме частоты основного тона (ЧОТ).

5. Разработанный программно-аппаратный комплекс обеспечивает, как ручную расстановку меток фонем, так и автоматическую на основе метода Learning Vector Quantization (LVQ).

6. Предложенный алгоритм классификации акцента на основе скрытых моделей Маркова (СММ) не требует полной фонетической разметки текста.

7. Для определения роста разработан алгоритм на основе Mel frequency cepstral coefficients (MFCC векторов), квадратичной регрессии и сингулярного разложения.

Определены фонемы гласных, дающие точность, достаточную для оценки роста.

Практическая значимость работы.

1. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала позволяют выделять значимые участки речи и могут быть использованы для решения задач голосовой биометрии.

2. Разработанный программно-аппаратный комплекс для регистрации, обработки и анализа речевого сигнала может быть использован для идентификации человека, а также определения его антропометрические характеристики, акцента/диалекта и психоэмоционального состояние (Рис.

1).

Рис. 1. Программно-аппаратный комплекс для решения задач голосовой биометрии Достоверность полученных результатов подтверждается тестированием программы на доступных базах данных, подтвердившим надежность разработанных методов и алгоритмов.

В результате проведенных исследований получены и выносятся на защиту следующие основные научные результаты:

1. Использование для идентификации диктора, в качестве векторов признаков, MFCC позволяет исключить влияние эмоционального состояния на идентификацию диктора и увеличить ее точность.

2. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала на основе фонетически сбалансированных слов и фонемной разметки позволяют выделять участки речи значимые при идентификации диктора, определении его акцента, антропометрических характеристик и психоэмоционального состояния.

3. Математическое описание методов и алгоритмов расчета характеристик речевого сигнала, позволяющих выявлять индивидуальные характеристики голосового тракта диктора, на основе линейной и нелинейной модели речеобразования.

4. Предложенный эффективный набор речевых характеристик и оптимальный набор параметров классификаторов обеспечивает надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.

5. Разработанный программно-аппаратный комплекс может быть использован для проведения экспериментов по исследованию и выявлению значимых линейных и нелинейных характеристик голосового сигнала при идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.

Апробации работы.

Основные положения и результаты диссертационной работы были представлены и обсуждены:

• на V-й Международной НТК «Электроника и информатикаМосква, 2005);

• на XIII, XIV, XV всероссийских межвузовских НТК студентов и аспирантов «Микроэлектроника и информатика» (Москва, 2006, 2007, 2008);

• на Всероссийском молодежном научно-инновационном конкурсе – конференции «Электроника - 2006» (Москва, 2006);

• на VII Международной НТК «Физика и радиоэлектроника в медицине и экологии – ФРЭМЭ 2006» (Владимир, 2006);

• на конкурсе молодежных инновационных предпринимательских проектов «День науки Зеленоград»

(Москва, 2006, 2007);

• на ХХ съезде Физиологического общества им. И.П. Павлова (Москва, 2007);

• The 4th Russian-Bavarian Conference on Bio-Medical Engineering, 2008, Moscow.

Внедрение результатов работы Разработанные в рамках диссертационной работы методики сбора голосовых баз данных и предобработки записей речевого сигнала, а также предложенный комплекс речевых характеристик и параметров классификаторов были внедрены:

• в ряде научно-исследовательских и опытно-констукторских работ, выполняемых на базе Научно-исследовательского и испытательного центра биометрической техники МГТУ им.

Н.Э. Баумана;

• в лабораторном практикуме по курсу «Нейронные сети и вейвлеты» для магистрантов МИЭТ, обучающихся по программе «Электроника биомедицинских систем»

направления 210100 «Электроника и микроэлектроника»;

•в учебно-исследовательской работе «Развитие технологической базы, методического и программного обеспечения, учебно-исследовательских работ и научноинновационной деятельности в области разработки электронных биомедицинских изделий и аппаратуры», выполненной центром формирования компетенций «Электроника биомедицинских и экологических систем»

МИЭТ в ходе Инновационной образовательной программы «Современное профессиональное образование для российской инновационной системы в области электроники» (2006-2007).

Публикации. По теме диссертации опубликовано 10 научных работ, из них 1 статья в журнале "Медицинская техника".

Структура и объем работы.

Диссертационная работа состоит из введения, четырех глав, заключения, списка используемой литературы и приложения, состоящего из шести частей. Общий объем работы составляет 149 страниц, в том числе 68 рисунков, 27 таблиц, 100 библиографических источников, 16 страниц приложений и 2 акта внедрения.

Содержание работы Во введении обоснована актуальность диссертационной работы; сформулирована цель работы и приведены основные результаты; изложены научная новизна и практическая значимость работы.

В первой главе рассмотрены две модели речеобразования:

линейная и нелинейная. Выполнен обзор существующих алгоритмов, методов и основных подходов к идентификации диктора, определению акцента и антропометрических характеристик, а также основных методов исследования эмоциональной речи. Рассмотрены области применения голосовой биометрии такие как, использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (счет в банке, авторизация действия или восстановление пароля); для электронной подписи документов, с невозможностью отказа от авторства; для контроля присутствия работника на рабочем месте.

Определение дополнительных характеристик диктора (акцент, антропометрические характеристики) используется в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных. Кроме того, можно оценить изменение психоэмоционального состояния человека в ответ на внешние и внутренние раздражители (при допросе, телефонном разговоре и т.д.).

В первой главе также представлен анализ рынка биометрических систем и перспективы голосовой биометрии в частности. В Таблице 1 рассмотрены некоторые существующие в настоящее время системы и их характеристики.

–  –  –

Обзор существующих коммерческих систем для решения задач голосовой биометрии и их основных характеристик показал, что недостатком существующих российских систем идентификации является чувствительность к психоэмоциональному состоянию диктора, а системы для диагностики акцента требуют полной фонетической разметки текста, что требует больших временных затрат. К тому же, в настоящее время не существует коммерческих программноаппаратных систем, обеспечивающих набор методик для определения характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния.

В заключение главы обоснована необходимость создания интегрированного программно-аппаратного комплекса для обработки, анализа речевого сигнала и решения задач голосовой биометрии.

Во второй главе описаны алгоритмы расчета характеристик голосового тракта, необходимых для проведения дальнейшего исследования в области голосовой биометрии, а также предложены оптимальные виды классификаторов для идентификации диктора, определения акцента, антропометрических характеристик и психоэмоционального состояния диктора.

Алгоритм идентификации диктора основан на вычислении акустических параметров речи с помощью метода MFCC векторов. Данный метод был выбран, так как его можно применять на зашумленных/телефонных записях, а также MFCC вектора не подвержены влиянию эмоционального состояния диктора. Для классификации используется метод квантования векторов Linde-Buzo-Gray (LBG), так как данный метод можно использовать в текстонезависимых системах, при этом он не требует значительных вычислительных затрат и обладает достаточной точностью.

Частота дискретизации сигнала составляет 8000 Гц. Такая частота дискретизации сигнала позволяет анализировать частоты до 4000 Гц, которые покрывают наибольшую энергию звуков производимых человеком, т.к. три первые форманты находятся в диапазоне от 200 до 4000 Гц.

Основной идеей метода MFCC являться максимальное приближение информации, поступающей на вход системы, к информации, поступающей на слуховой анализатор мозга человека, с помощью умножения 32 копий каждого отсчета сигнала в 30 мсек на АЧХ треугольных фильтров, центральные частоты которых равномерно распределены по мел-шкале. (Рис.

2).

–  –  –

Далее, используя алгоритм LBG, входными параметрами которого являются MFCC коэффициенты, для каждого диктора строится кодовая книга. После этого вычисляется специальное, устойчивое к перестановкам векторов, расстояние от неё до других книг в базе данных. Если минимальное расстояние меньше некоторого порога, то считается, что диктор распознан.

Для определения акцента используются статистические модели произнесения слов на основе СММ. Акцент выражается в произношении, растягивании и проглатывании букв, поэтому важно знать изменение состоянии в каждый дискретный момент

–  –  –

Определение роста диктора производится на основе расчета MFCC коэффициентов для гласных звуков. MFCC коэффициенты обладают наибольшей корреляцией между рассчитанным и действительным ростом (0.7426 на выборке из 462 дикторов) по сравнению с LPC коэффициентами (Linear Prediction Coefficients), ЧОТ и формантными частотами.

Алгоритм для определения роста состоит из двух этапов.

Первый этап – обучение базы данных (Рис. 4).

–  –  –

Коэффициенты регрессии b ищутся путем решения системы уравнений: y1 = X 1 b и рассчитываются на основе сингулярного разложения, где y1 вектор «реального» роста диктора.

Второй этап – определение роста диктора на основе вычисленных коэффициентов регрессии (Рис. 5).

Рис. 5. Алгоритм определения роста диктора Для определения психоэмоционального состояния используются паралингвистические параметры. К наиболее исследуемым паралингвистическим аспектам можно отнести линейные характеристики (значение ЧОТ и его характеристик, джиттер, шиммер, темп речи и значение интенсивности), и

–  –  –

В третьей главе На основе описанных во второй главе алгоритмов реализован программно-аппаратный комплекс, предназначенный для решения задач голосовой биометрии (Рис. 6).

Рис. 6. Общая схема программно-аппаратного комплекса Модуль загрузки фонограммы служит для ввода фонограмм со звукозаписывающей аппаратуры или из базы данных.

В качестве устройств захвата звука использовались модели внешних/внутренних звуковых плат фирмы Creative Worldwide серий X-Fi и Audigy, так как они способны с высокой точностью получать любую требуемую частоту, а также тестовые программы демонстрируют отсутствие характерных искажений сигнала.

Характеристики звуковых плат:

• 24-битный АЦП с частотой опроса до 192 КГц в стерео режиме;

• 24-битный ЦАП с частотой выдачи до 96 КГц;

• микрофонный вход, линейный стерео вход и SPDIF;

• фонограммы сохраняются в формате Microsoft WAVE, с разрешением 8/16-бит, моно или стерео, частота опроса - 8, 11.025, 16, 22.05, 24, 32, 44.1, 48 и 96 КГц.

Модуль оценки качества сигнала автоматически определяет пригодность фонограмм для последующего их использования в анализе по определению особенностей дикторов. Если сигнал не соответствует требованиям, то с помощью модуля предобработки можно произвести шумоочистку и удалить неинформативные участки (например, щелчки микрофона).

Модуль расчета векторов признаков предназначен для расчета характеристик голосового тракта на основе линейной и нелинейной модели речеобразования для дальнейшей классификации.

Модуль идентификации диктора выполняет загрузку записи голоса диктора, создание модели голоса и идентификацию диктора с использованием созданной базы данных моделей.

Определение психоэмоционального состояния состоит из четырех этапов (Рис. 7).

• подготовка звуковых файлов для последующего анализа (удаление артефактных участков, например, щелчков телефонного аппарата, участков с сильным фоновым шумом и т.д.);

• расчёт основных классификационных характеристик программой (джиттер, шиммер, параметры ЧОТ, параметры оператора TEO);

• определение параметров классификатора;

• определение психоэмоционального состояния.

–  –  –

всех СММ рассчитываются коэффициенты доверия.

При распознавании акцента, фраза разбивается на слова, определяется вероятность появления каждого слова в каждой модели. Если она меньше некоторого порога – то данное слово не входило в базу обучения, в противном случае, это слово признаётся тем, за которое отвечала СММ, выдавшая максимальную вероятность. Далее вычисляется вероятность принадлежности слова к какому-либо акценту, если она меньше некоторого значения, то считается, что данное слово принадлежит к неопознанному акценту. Если больше, то акцентом слова признается тот, который выдал большую вероятность.

Загрузка...

Таким образом, определяется акцент всех слов фразы, вошедших в обучающую базу данных.

Затем по ним восстанавливается акцент фразы в целом следующим образом:

каждое слово добавляет в свой акцент значение коэффициента доверия СММ, которая определила его акцент (выдала большую вероятность). Тот акцент, который набрал большую сумму, считается акцентом фразы.

В четвертой главе показаны основные результаты экспериментальной проверки предложенной методики.

Расчет используемых характеристик голосового тракта производился с помощью модуля расчета векторов признаков (Рис. 9).

Рис. 9. Расчет векторов признаков

Программа осуществляет расчет формант, ЧОТ и ее характеристик, TEO, джиттера, шиммера, спектрограммы, и энергии сигнала, а также отображение графиков их изменения.

Для апробации алгоритмов использовались собственные базы данных, а также открытые базы с сайтов, содержащие речевые записи с частотой оцифровки 8000 Гц и разрешением 16 бит.

В рамках проведенных исследований для идентификации дикторов были использованы формантные частоты. В результате точность идентификации дикторов уменьшалась в зависимости от увеличения количества дикторов, входящих в выборку (Таблица 2).

Таблица 2 Результат классификации в зависимости от количества дикторов Количество Правильная дикторов классификация, % 10 - 40 100 70 47,14 80 42,5 90 42,22 При идентификации диктора на основе MFCC и LBG алгоритмов точность идентификации составила 99,6 % на базе данных в 528 дикторов. Такая точность была достигнута благодаря использованию базы данных, записанной с помощью одного и того же оборудования и в одинаковых акустических условиях без постороннего шума.

Использование формантных частот и 2-х слойной нейронной сети для классификации акцента показало, что 2-х слойные сети эффективно работают в задачах классификации акцента на небольших (до 30-40 человек) выборках. Однако, с увеличением выборки процент правильной классификации снижается до 40Рис. 10. Результаты классификации акцента На рисунке 10 показаны результаты обучения матрицы, и примеры выходных данных из нейронной сети для тестируемых испытуемых. Группа для обучения состояла из 4 акцентов по 7-9 человек. Выходные данные показывают относительную силу различных типов акцентов, преобладающих для отдельных испытуемых. В связи с невозможностью использования 2-х слойной нейронной сети для определения акцента/диалекта диктора на больших базах данных было решено использовать ССМ.

Тестирование классификатора акцентов на основе СММ проводилось на собственной базе данных. Группа для тестирования трех диалектов русского языка состояла из 60 человек, из них 29 москвичей, 13 ростовчан и 18 петербуржцев (Таблица 3).

Таблица 3 Результаты тестирования классификатора диалекта Диалект Ошибка Ошибка обучения/число тестирования/число дикторов дикторов Московское 5%/(18) 18%/(11) Ростовское 0%/(10) 33%/(3) Ленинградское 0%/(13) 20%/(5)

Ошибка тестирования составила от 18% до 33 %, при чем

ошибка уменьшается с увеличением количества дикторов, входящих в обучающую выборку.

Тестирования классификатора роста проводилось на собственной базе данных, состоящей из 200 человек (100 женщин и 100 мужчин) с заранее измеренным ростом.

Были получены следующие результаты:

• наименьшая ошибка определения роста получена при использовании гласных «у» и «е», при этом распределение точек на графике (Рис. 11а) близко к диагональному;

• для остальных гласных ошибка выше и распределение более горизонтальное, т.е. для центра аппроксимация лучше, чем на краях;

• при использовании комбинации гласных или их всех одновременно ошибка выше, а распределение имеет более ярко выраженный «горизонтальный» вид (Рис. 11б);

• расчеты на меньшей обучающей выборке в 50 дикторов привели к уменьшению ошибки оптимизации на обучающей выборке, и значительному увеличению ошибки для тестовой выборки.

–  –  –

Запись голоса проводили в помещении без постороннего шума, где дикторы произносили одну и туже фразу, выражая при этом следующие эмоциональные состояния: «без эмоций», «гнев», «сарказм», «грусть» и «страх». Определение эмоционального состояния человека производилось с помощью расчета ЧОТ и его дисперсии. Ниже в таблице показаны суммированные результаты в процентах для всех испытуемых, из которой видны общие закономерности изменения ЧОТ и ее дисперсии при сравнении с эмоциональным состоянием «без эмоций» (Таблица 4).

Таблица 4 Закономерности изменения показателей ЧОТ Повышения показателя Понижения показателя при стенических при астенических эмоциях, % эмоциях, % Гнев Сарказм Страх Грусть ЧОТ 82 91 36 73 Дисперсия 91 91 82 73 Из представленных таблиц можно сделать следующие вывод, что использование линейных характеристик речевого сигнала (ЧОТ и ее дисперсии) для детектирования психоэмоционального состояния «страх» не достаточно. В связи с этим было решено использовать также нелинейные характеристики речи и выявить их наиболее эффективный набор.

Далее для обучения и тестирования классификатора психоэмоционального состояния использовалась база немецкой эмоциональной речи Emo-DB. Были использованы 187 фраз пяти дикторов, соответствующих следующим эмоциональным состояниям: нейтральное, гнев, счастье, грусть, страх. Из них 20% (33 записи) использовались в качестве тестового набора и 80% (154 записи) в качестве обучающего.

Были определены численные значения акустических параметров речи, для которых был произведён однофакторный дисперсионный анализ. С помощью однофакторного дисперсионного анализа была определена значимость каждого из параметров в распознавании психоэмоционального состояния.

После проведения серии экспериментов по минимизации входного вектора, с учётом данных однофакторного дисперсионного анализа, было получено, что набор оптимальных параметров, подающихся на вход классификатора, включает в себя: джиттер, стандартное отклонение ЧОТ между сегментами, стандартное отклонение ЧОТ внутри сегмента, нелинейные характеристики оператора ТЕО и стандартное отклонение энергии сигнала. При этом наибольший процент (76% для обучающей выборки и 63% для тестовой выборки) распознавания получается при следующих параметрах классификатора на основе перцептрона: количество нейронов во втором слое – 45, количество эпох обучения – 1000, коэффициенты функции активации для первого и второго слоя – 0.1, 0.1, скорость обучения первого и второго слоя – 0.1, 0.1.

На основании проведённой работы сформулированы следующие выводы:

1. наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой – 83.3% и 80%;

2. стенические эмоции (гнев, счастье), точно также как и астенические (грусть, нейтральное состояние, страх) трудно поддаются разделению;

3. не столь высокий процент распознавания эмоций страха (обучающая выборка – 72.7%, тестовая – 66.6%), счастья (обучающая выборка – 62.9%, тестовая выборка – 44.4%), грусти (обучающая выборка – 61.9%, тестовая выборка – 40%) связан, по-видимому, с небольшим количеством данных.

Полученные в диссертационной работе экспериментальные результаты подтвердили достоверность предложенной методики.

В заключение диссертационной работы сформулированы основные выводы и полученные результаты.

В приложении приведены результаты тестирования алгоритмов, выбор оптимальных характеристик речевого сигнала и параметров классификаторов.

Основные результаты диссертационной работы

1. Проведенный анализ существующих систем и методов для решения задач голосовой биометрии показал, что недостатком существующих российских систем идентификации является чувствительность к психоэмоциональному состоянию диктора, из-за использования основного тона для формирования векторов признаков.

2. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.

3. Предложен эффективный набор речевых характеристик и оптимальный набор параметров классификаторов, обеспечивающий надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.

4. Показана невозможность использования формантного анализа и нейросетевых классификаторов в задачах классификации акцента и идентификации дикторов, так как 2-х слойные сети эффективны на небольших (до 40-50 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.

5. В результате проведенных исследований реализован программно-аппаратный комплекс с использованием полученных в диссертационной работе методов и алгоритмов, позволяющий решать задачи голосовой биометрии.

6. Проведено тестирование разработанных методов и алгоритмов на доступных базах.

а. При идентификации диктора на базе данных из 528 человек, состоящей из звуковых записей, записанных с помощью одного и того же оборудования и в одинаковых акустических условиях, точность составила 99,6 %. Удалось увеличить точность на 7-17% по сравнению с системами, использующими характеристики речи, которые подвержены влиянию психоэмоционального состояния человека.

б. При определении акцента/диалекта диктора ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке.

в. Точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов.

г. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки – 83.3% и 80%.

Список работ, опубликованных по теме диссертации

1. Соловьева Е.С., Конышев В.А., Селищев С.В. Использование основного тона и формантного анализа в задачах голосовой биометрии // Медицинская техника. – 2007. – №1. – С. 32-37.

2. Соловьева Е.С., Конышев В.А. Анализ стресса по речевому сигналу // V Международная НТК «Электроника и информатика-2005». Тезисы докладов. – М.: МИЭТ, 2005. – С. 111.

3. Соловьева Е.С. Классификация акцента с помощью нейронных сетей // XIII всероссийская межвузовская НТК студентов и аспирантов: «Микроэлектроника и информатика

– 2006». Тезисы докладов. – М.: МИЭТ, 2006. – С. 327.

4. Соловьева Е.С. Идентификация и верификация диктора по голосу // Всероссийский молодежный научно-инновационный конкурс – конференция «Электроника - 2006». Тезисы докладов конференции. – М.: МИЭТ, 2006. – С. 96.

5. Соловьева Е.С., Конышев В.А. Корреляция изменений частоты основного тона голоса человека с его эмоциональным состоянием // VII международная НТК «Физика и радиоэлектроника в медицине и экологии – ФРЭМЭ 2006». Доклады. Книга 1. – Владимир, 2006. – С.

107-110.

6. Соловьева Е.С., Тананыкин А.А. Модуль идентификации личности по голосу // XIV Всероссийская межвузовская НТК студентов и аспирантов «Микроэлектроника и информатика – 2007». Тезисы докладов. – М.: МИЭТ, 2007. – С. 363.

7. Соловьева Е.С., Вавакина Е.В., Карловский Д.В., Дорошенков Л.Г. Голосовая биометрия в задачах идентификации и верификации личности // Тезисы докладов Конкурса молодежных инновационных предпринимательских проектов «День науки Зеленоград». М.: МИЭТ, 2007. – С. 11.

8. Соловьева Е.С., Тарасов Р.Ю. Оценка психоэмоционального состояния человека по голосу // ХХ съезд Физиологического общества им. И.П. Павлова. Тезисы докладов. – М.:

Издательский дом «Русский врач», 2007. – С. 427.

9. Соловьева Е.С., Тананыкин А.А. Определение роста диктора на основе расчета акустических характеристик голосового тракта // XV Всероссийская межвузовская НТК студентов и аспирантов «Микроэлектроника и информатика – 2008».

Тезисы докладов. – М.: МИЭТ, 2008. – С. 282.

10. Vinokurova M., Solovjeva E., Tarasov R. Estimation of subject emotional state from speech parameters// Proceedings of the 4th Russian-Bavarian Conference on Bio-Medical Engineering at Moscow Institute of Electronic Technology (Technical University), Zelenograd, Moscow, Russia, 2008, pp. 357-361.

Подписано в печать:

Заказ № Тираж экз. Уч.-изд.л. Формат 60х84 1/16.

Отпечатано в типографии МИЭТ (ТУ).

124498, Москва, МИЭТ (ТУ).



Похожие работы:

«МАМАДЖАНОВА ЕВГЕНИЯ ХУСЕЙНОВНА СПЕКТРАЛЬНО-КИНЕТИЧЕСКИЕ СВОЙСТВА АКТИВИРОВАННЫХ РЕДКОЗЕМЕЛЬНЫМИ ЭЛЕМЕНТАМИ СТЕКОЛ СИСТЕМЫ Y2O3-Al2O3-B2O3 И ПОЛИКРИСТАЛЛОВ СО СТРУКТУРОЙ ХАНТИТА Специальность 05.17.11 – Технология силикатных и тугоплавких неметаллических материалов АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Москва – 2012 Работа выполнена в Российском химико-технологическом университете имени Д.И. Менделеева на кафедре «Химическая технология...»

«БАВИН ЭЙ МЕТОДИКИ И АЛГОРИТМЫ ОБРАБОТКИ И УПРАВЛЕНИЯ ИНФОРМАЦИЕЙ В СИСТЕМАХ ПОДДЕРЖКИ ПРОЦЕССОВ ОБУЧЕНИЯ МАТЕМАТИЧЕСКИМ ДИСЦИПЛИНАМ Специальность: 05.13.01 Системный анализ, управление и обработка информации (приборостроение) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва – 2010 г. Работа выполнена на кафедре Информатики и программного обеспечения вычислительных систем в Московском государственном институте электронной техники...»

«ГАФАРОВ Евгений Рашидович АЛГОРИТМЫ РЕШЕНИЯ NP-ТРУДНЫХ ЗАДАЧ МИНИМИЗАЦИИ СУММАРНОГО ЗАПАЗДЫВАНИЯ И МИНИМИЗАЦИИ ВРЕМЕНИ ВЫПОЛНЕНИЯ ПРОЕКТА И ИХ ПРИМЕНЕНИЕ В КОМБИНАТОРНОЙ ОПТИМИЗАЦИИ. специальность 01.01.09 – дискретная математика и математическая кибернетика Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва 2008 Работа выполнена в отделе математических проблем распознавания и методов комбинаторного анализа Вычислительного центра...»

«МЕДУНЕЦКИЙ Виталий Викторович Исследование качества электроэродированных поверхностей с использованием непараметрических критериев Специальность 05.11.14 – Технология приборостроения АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук Санкт-Петербург Работа выполнена на кафедре Технологии приборостроения СанктПетербургского национального университета информационных технологий, механики и оптики. Научный руководитель: доктор технических наук,...»

«Зыков Анатолий Геннадьевич МЕТОДЫ ВЕРИФИКАЦИИ АППАРАТНО-ПРОГРАММНЫХ КОМПОНЕНТОВ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ Специальность – 05.13.12 “Системы автоматизации проектирования” (приборостроение) АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук Санкт-Петербург Работа выполнена в Санкт-Петербургском государственном университете информационных технологий, механики и оптики Научный руководитель профессор, доктор технических наук О.Ф. Немолочнов Официальные...»

«Аро Хабиб Олалекан СИНТЕЗ РОБАСТНЫХ АЛГОРИТМОВ УГЛОВОЙ СТАБИЛИЗАЦИИ МЕТЕОРОЛОГИЧЕСКОЙ РАКЕТЫ Специальность 05.13.01 «Системный анализ, управление и обработка информации (в технике и технологиях)» Автореферат диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург Работа выполнена на кафедре компьютерного проектирования аэрокосмических измерительно-вычислительных комплексов в СанктПетербургском государственном университете аэрокосмического...»

«Казакова Людмила Сергеевна КОНСТИТУЦИОННЫЕ ПРАВА НЕСОВЕРШЕННОЛЕТНИХ И ОСОБЕННОСТИ ИХ РЕАЛИЗАЦИИ В ДЕЯТЕЛЬНОСТИ ОРГАНОВ МЕСТНОГО САМОУПРАВЛЕНИЯ Специальность 12.00.02 – конституционное право; муниципальное право. АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Москва – 2012 Работа выполнена на кафедре конституционного и международного права ФГКОУ ВПО «Санкт-Петербургский университет Министерства внутренних дел Российской Федерации» Научный...»

«Литманович Андрей Михайлович Исследование и разработка оптико-электронных информационноуправляющих систем на основе метода теневой локации. Специальность: 05.13.06 „„Автоматизация и управление технологическими процессами и производствами (в приборостроении) Автореферат диссертации на соискание ученой степени кандидата технических наук Москва – 2012 г. Работа выполнена на кафедре «Системы автоматического управления и контроля» национального исследовательского университета...»

«Лебедев Кирилл Сергеевич Разработка метода и инструментальных средств создания приложений для системы управления содержанием веб-сайтов Специальность 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук Иркутск 2008 Работа выполнена на кафедре Автоматизированных систем Иркутского государственного технического университета Научный руководитель:...»

«ТЕЛЫШЕВ Дмитрий Викторович ОБРАБОТКА ИНФОРМАЦИИ ЭЛЕКТРОКАРДИОГРАФИЧЕСКИХ СИГНАЛОВ ДЛЯ ОБЕСПЕЧЕНИЯ ПРИНЯТИЯ РЕШЕНИЙ АВТОМАТИЧЕСКИМ НАРУЖНЫМ ДЕФИБРИЛЛЯТОРОМ 05.13.01 – системный анализ, управление и обработка информации (приборостроение) Автореферат диссертации на соискание учной степени кандидата технических наук Москва – 2011 Работа выполнена на кафедре биомедицинских систем Московского государственного института электронной техники (технического университета) Научный...»

«Великовский Дмитрий Юрьевич КРИСТАЛЛЫ СЕМЕЙСТВА КАЛИЙ-РЕДКОЗЕМЕЛЬНЫХ ВОЛЬФРАМАТОВ КАК МАТЕРИАЛЫ ДЛЯ АКУСТООПТИКИ Специальность: 01.04.01 «Приборы и методы экспериментальной физики» АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2015 2 -Работа выполнена в ФГБУН «Научно-технологический центр...»

«БОЛДЕНКОВ ЕВГЕНИЙ НИКОЛАЕВИЧ РАЗРАБОТКА И ИССЛЕДОВАНИЕ ОПТИМАЛЬНЫХ АЛГОРИТМОВ ОБРАБОТКИ СИГНАЛОВ В АППАРАТУРЕ СПУТНИКОВОЙ НАВИГАЦИИ Специальность 05.12.14 — Радиолокация и радионавигация Автореферат диссертации на соискание учёной степени кандидата технических наук Москва — 2007 Работа выполнена на кафедре радиотехнических систем Московского Энергетического института (ТУ). Научный руководитель: доктор технических наук, профессор Перов Александр Иванович Официальные оппоненты:...»

«Александров Владимир Алексеевич РАЗРАБОТКА И ИССЛЕДОВАНИЕ ПЬЕЗОЭЛЕКТРИЧЕСКИХ СТРУННЫХ ПРЕОБРАЗОВАТЕЛЕЙ ДВИЖЕНИЯ Специальности: 05.11.14 – «Технология приборостроения» 01.04.01 – «Приборы и методы экспериментальной физики» АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Ижевск 2006 Работа выполнена в Институте прикладной механики УрО РАН Научный руководитель: доктор физико-математических наук Михеев Геннадий Михайлович Научный...»

«АЛИМУРАДОВ Алан Казанферович АЛГОРИТМЫ И УЗЛЫ ОБРАБОТКИ РЕЧЕВЫХ КОМАНД ПОДСИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ ИНФОРМАЦИОННОИЗМЕРИТЕЛЬНЫХ И УПРАВЛЯЮЩИХ СИСТЕМ Специальность 05.11.16 – Информационно-измерительные и управляющие системы (приборостроение) Автореферат диссертации на соискание ученой степени кандидата технических наук ПЕНЗА 2015 Работа выполнена на кафедре «Информационно-измерительная техника и метрология» Федерального государственного бюджетного образовательного...»

«Кондрико Андрей Васильевич Система казачьего самоуправления в рамках российской государственности на примере Запорожской Сечи в сер. XVII – кон. XVIII вв. 07.00.02 – Отечественная история Автореферат диссертации на соискание ученой степени кандидата исторических наук Москва – 201 Работа выполнена в ФГБОУ ВПО «Московский государственный университет приборостроения и информатики». доктор исторических наук, доцент Научный руководитель: Захаров Виталий Юрьевич Санин Геннадий...»

«Михновец Павел Владимирович Атомно-абсорбционный спектрометр с коррекцией неселективного поглощения на основе эффекта Зеемана в постоянном магнитном поле Специальность 01.04.01 – Приборы и методы экспериментальной физики АВТОРЕФЕРАТ Диссертация на соискание ученой степени кандидата технических наук Санкт-Петербург Работа выполнена в Учреждении Российской академии наук Институте аналитического приборостроения РАН (ИАП РАН) доктор физико-математических наук, Научный...»

«ФРОЛОВ Михаил Алексеевич ЕМКОСТНЫЕ ДАТЧИКИ ДАВЛЕНИЯ С ПОВЫШЕННОЙ НАДЕЖНОСТЬЮ ДЛЯ ИНФОРМАЦИОННОИЗМЕРИТЕЛЬНОЙ И УПРАВЛЯЮЩЕЙ СИСТЕМЫ ДВИГАТЕЛЬНОЙ УСТАНОВКИ Специальность 05.11.16 – Информационно-измерительные и управляющие системы (приборостроение) Автореферат диссертации на соискание ученой степени кандидата технических наук ПЕНЗА 2015 Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Пензенский...»









 
2016 www.konf.x-pdf.ru - «Бесплатная электронная библиотека - Авторефераты, диссертации, конференции»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.