WWW.KONF.X-PDF.RU
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Авторефераты, диссертации, конференции
 

Pages:   || 2 | 3 |

«МОДИФИКАЦИЯ, РАЗРАБОТКА И РЕАЛИЗАЦИЯ МЕТОДОВ КЛАССИФИКАЦИИ НОВОСТНЫХ ТЕКСТОВ ...»

-- [ Страница 1 ] --

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ

УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ «МЭИ»

На правах рукописи

УДК 004.852

Шаграев Алексей Галимович

МОДИФИКАЦИЯ, РАЗРАБОТКА И РЕАЛИЗАЦИЯ



МЕТОДОВ КЛАССИФИКАЦИИ НОВОСТНЫХ

ТЕКСТОВ

Специальность 05.13.17 – Теоретические основы информатики Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель:

д.т.н., профессор Фальк Вадим Николаевич Москва 2014 Содержание Введение

1. Задача текстовой классификации как задача обучения по прецедентам

Оценка качества методов классификации

1.1 Метрики точности и полноты

1.1.1 Метрика Accuracy

1.1.2 Метрика AUC

1.1.3 Комбинированные метрики

1.1.4 Методы решения задачи текстовой классификации

1.2 Наивный байесовский метод

1.2.1 Метод ближайших соседей

1.2.2 Оценка качества

1.2.3

2. Задача классификации текстов

Линейные методы классификации

2.1 Наивный байесовский метод и его модификации..................27 2.1.1 Логистическая регрессия

2.1.2 Модельные деревья решений

2.2 Одномерная линейная регрессия

2.2.1 Инкрементальное обновление

2.2.2 Многомерная линейная регрессия

2.2.3 Алгоритмические композиции

2.3 Алгоритмические композиции в задаче регрессии................57 2.3.1 2.3.2 Алгоритмические композиции в задаче бинарной классификации

Матричное разложение как метод выделения признаков............59 2.4 Выводы

2.5

3. Экспериментальное исследование рассмотренных методов.............65 Методика экспериментального исследования

3.1 Метод скользящего контроля

3.1.1 Стратификация

3.1.2 Исследуемые наборы данных

3.2 Коллекция Reuters-21578

3.2.1 Коллекция UCI

3.2.2 Результаты численных экспериментов

3.3 Линейные методы классификации

3.3.1 Линейные методы восстановления регрессии

3.3.2 3.3.3 Модельные деревья решений в задаче восстановления регрессии

3.3.4 Алгоритмические композиции на основе модельных деревьев в задачах классификации

Выводы

3.4 Заключение

4. Список сокращений и условных обозначений

Литература

5. Приложение. Тексты программ для решения задач линейной регрессии

ВВЕДЕНИЕ

Классификация текстов – одна из важных задач информационного поиска [26], заключающаяся в отнесении документа к одной или нескольким категориям (классам) из некоторого заранее определенного набора на основании анализа содержания этого документа.

Разумеется, простейшим и исторически первым методом классификации документов является ручная классификация, примеры которой можно видеть в виде рубрик в СМИ, категорий в библиотеках, разделении художественных текстов на жанры, разделении научных текстов по тематикам и т.д.

Впрочем, ручная классификация весьма ограничена в способности быстро обрабатывать большие массивы текстов, характерные для многих приложений автоматических методов классификации текстов.

Среди этих приложений стоит отметить следующие:

–  –  –

контекстная реклама;

автоматическое реферирование наборов текстов;

категоризация (рубрикация) в агрегирующих системах;

обеспечение разнообразия поисковой выдачи и другие.

Методы машинного обучения широко используются для задач текстовой классификации. Это обусловлено несколькими причинами, среди которых стоит отметить высокую скорость классификации, а также снижение роли человека в процессе получения решения.

Действительно, использование методов машинного обучения позволяет свести задачу человека к формированию обучающей выборки прецедентов, для чего, как правило, не нужна чрезвычайно высокая квалификация.

Поэтому в настоящей работе рассматриваются вопросы, связанные с применением методов машинного обучения в задаче автоматической классификации текстов. Стоить отметить некоторые характерные особенности этой задачи:





1. Тексты являются текстами на естественном языке, не имеют четкой формализации, не структурированы, не являются техническими.

2. Количество классов в задачах классификации текстов, как правило, достаточно велико, а сами классы имеют мало общего.

Впрочем, в более сложных случаях, не рассмотренных в настоящей работе, классы могут образовывать иерархию.

–  –  –

4. Сама задача достаточно хорошо исследована, имеется большое количество публикаций, посвященных этой теме и содержащих оценки качества работы различных алгоритмов на стандартных наборах данных.

Цель диссертационной работы. Целью диссертационного исследования является повышение качества классификации текстов на основе использования современных методов машинного обучения.

Для достижения этой цели в диссертации решаются следующие задачи:

–  –  –

2. Анализ существующих методов решения традиционных задач машинного обучения и модификация этих методов с целью повышения показателей качества моделей, получаемых с их помощью.

–  –  –

4. Разработка методов построения модельных деревьев решений и алгоритмических композиций на их основе для решения задач восстановления регрессии и классификации.

5. Сравнительный анализ известных и предложенных автором методов машинного обучения применительно к задачам восстановления регрессии и классификации.

–  –  –

8. Сравнительный анализ рассмотренных методов применительно к задаче классификации текстов.

Методы исследования. Полученные в диссертации результаты основываются на применении методов статистического и лингвистического анализа текстов, теории вероятностей, математической статистики, теории алгоритмов, численных методов.

Научная новизна. Основные результаты работы являются новыми, оригинальными и заключаются в следующем:

1. Разработан метод признакового описания документов, позволяющий учитывать специфику написания тестов при помощи взвешивания позиций вхождения слов в документы.

2. Разработаны модификации стандартных линейных методов классификации: наивного байесовского метода и метода логистической регрессии, позволяющие существенно повысить качество решения задачи классификации текстов при использовании этих методов.

3. Разработано несколько способов получения оценок ошибки многомерной линейной регрессии в условиях постоянно изменяющейся выборки, использующих в качестве основы решение задачи одномерной линейной регрессии, а также градиентный бустинг как метод приближенного решения задачи.

4. Предложенные методы получения оценок ошибки многомерной линейной регрессии использованы в качестве критериев качества разбиений при построении модельных деревьев решений.

5. Разработана общая схема построения алгоритмических композиций, позволяющая решать как задачи регрессии, так и задачи классификации при использовании произвольных базовых методов решения задачи восстановления регрессии.

6. Разработан метод декомпозиции матриц, позволяющий решать задачу тематического моделирования применительно к матрицам вхождений слов в документы. Тем самым не только решается задача снижения размерности, но также производится определенного рода семантический анализ текстов. Метод принципиально отличается как от известных методов разложения матриц, так и от известных методов тематического моделирования.

7. Реализован и исследован метод решения задачи классификации текстов, использующий матричное разложение в качестве средства получения признаковых описаний документов и алгоритмическую композицию на основе модельных деревьев решений для решения задачи классификации.

Практическая ценность.

1. Осуществлена программная реализация всех предложенных методов.

2. В результате исследований на коллекциях задач из репозитория UCI [22] было установлено, что предложенные методы решения задач восстановления регрессии и классификации значительно превосходят по качеству получаемых моделей известные методы.

3. В результате экспериментов на коллекции текстовых документов было установлено, что Reuters-21578 [24] предложенные модификации стандартных линейных методов классификации значительно превосходят по качеству моделей стандартные методы. Так, удалось добиться улучшения показателей качества наивного байесовского метода на 20% по сравнению с оригинальным методом, а для метода логистической регрессии – на 8%. Также было установлено, что алгоритм, основанный на алгоритмической композиции

–  –  –

Результаты данной работы используются в сервисе Яндекс.Новости для решения задач рубрикации текстовых документов и сюжетов, а также для осуществления предсказаний близости между документами для последующей их кластеризации.

Апробация. Положения диссертационной работы докладывались на XVII ежегодной международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика» в 2011 году, XVIII ежегодной международной конференции «Информационные средства и технологии» в 2010 году, на рабочих совещаниях и выступлениях в компании «Яндекс».

Публикации. По теме диссертации опубликовано четыре научные работы, в том числе две – в изданиях по перечню ВАК.

Объем и структура работы. Диссертация состоит из введения, трех глав и заключения. Список использованной литературы содержит наименования. Текст диссертации содержит страниц машинописного текста, включая 16 рисунков и 7 таблиц.

В первой главе вводятся основные определения и термины, используемые в работе. Приводится история исследования вопросов восстановления регрессии, классификации и, в частности, классификации текстов. Осуществляется обзор существующих методов решения указанных задач и посвященных этим методам работ других авторов.

Во второй главе описываются оригинальные теоретические результаты. В первую очередь, ставится вопрос о качестве существующих методов линейной классификации и о способах их улучшения. Для этого предлагаются модификации известных методов. В частности, вводится альтернативный функционал потерь для наивного байесовского метода и итеративный алгоритм его оптимизации. Кроме того, исследуется вопрос регуляризации наивного байесовского метода.

Предлагается ряд усовершенствований метода логистической регрессии:

модифицированный функционал потерь и трансдуктивное обучение.

Исследуются вопросы применения модельных деревьев решений, использующих при своем построении более точные оценки ошибки многомерной линейной регрессии, нежели тривиальная оценка стандартного отклонения ответов, традиционно используемая при построении модельных и регрессионных деревьев. Предлагается несколько способов построения более точных оценок, поддерживающих возможность эффективного обновления при изменении обучающей выборки. Также предлагается общий метод построения алгоритмических композиций для решения задач машинного обучения с широким классом функционалов потерь и его применение к задачам регрессии и бинарной классификации.

Наконец, предлагается метод матричного разложения в качестве способа снижения размерности в задаче классификации текстов. Этот метод может рассматриваться и в качестве метода тематического моделирования, позволяющего учитывать некоторые семантические особенности текстов.

Третья глава содержит подробное описание методологии, которая используется для оценки качества рассматриваемых методов, а также описания используемых наборов данных. Затем приводятся результаты экспериментальных исследований рассматриваемых методов.

Эксперименты подтверждают значительный рост качества предложенных автором линейных методов классификации по сравнению со стандартными методами.

Исследование качества различных методов решения задач восстановления регрессии и классификации показывает значительное превосходство методов, основанных на алгоритмических композициях модельных деревьев, по сравнению с другими методами.

Проводится анализ качества решения задачи восстановления матрицы вхождений слов в документы при помощи предложенного метода матричного разложения. Оказывается, что результаты классификации с использованием в качестве признаков полученных в ходе разложения коэффициентов для документов возможно повысить, использовав взвешивание вхождений по методу -.

Наконец, устанавливается, что предложенный метод построения алгоритмической композиции для задачи классификации на основе модельных деревьев с использованием признаков, полученных методом матричного разложения, значительно превосходит по показателям качества другие рассмотренные в работе методы.

Заключение содержит основные результаты диссертации, а также обсуждение возможностей дальнейшего развития предложенных в настоящей работе методов.

Приложение содержит программные коды, используемые для решения задач, связанных с вычислением оценок ошибки многомерной линейной регрессии.

1. ЗАДАЧА ТЕКСТОВОЙ КЛАССИФИКАЦИИ КАК ЗАДАЧА

ОБУЧЕНИЯ ПО ПРЕЦЕДЕНТАМ

Неформально задача обучения по прецедентам [45] может быть сформулирована следующим образом. Имеется множество объектов и множество возможных ответов. Существует некоторая зависимость между объектами и ответами – целевая функция, но она неизвестна.

Известно только конечное множество прецедентов – пар, состоящих из объектов и соответствующих им ответов. Это множество будем называть выборкой. На основе множества прецедентов необходимо восстановить неизвестную зависимость, то есть, построить алгоритм, способный для всякого объекта предсказать соответствующий ему ответ. Этот алгоритм будет называться решающей функцией. Значения решающей функции будем называть предсказаниями. Способ построения решающей функции по множеству прецедентов называется методом обучения, а процесс построения решающей функции будем называть процессом обучения. Выборку, используемую в процессе обучения, будем называть обучающей выборкой.

Для измерения качества предсказаний необходимо определить функционал качества – функцию, которая всякому набору прецедентов и решающей функции сопоставляет некоторое число, причем считается, что большие значения функционала качества означают лучшее качество предсказаний. Можно, напротив, определять функционал потерь, для которого лучшее качество предсказаний соответствует меньшему значению функционала. И функционалы потерь, и функционалы качества также называют метриками.

Требованием к методу обучения является обеспечение качественных предсказаний не только на объектах, входящих в обучающее множество, но и на других объектах. Для проверки этого требования рассматривается другая выборка прецедентов, никак не связанная с обучающей – тестовую (контрольную), и измерить качество предсказаний на ней.

Способность осуществлять качественные предсказания не только на объектах обучающей выборке, но и на других объектах, называется обобщающей способностью.

Более формально, будем считать, что имеется множество объектов, множество ответов и существует неизвестная целевая функция, значения которой измерены на конечном подмножестве ||.

Обучающая выборка определяется тогда следующим образом:

{ | ( )} Будем считать, что все возможные решающие функции образуют множество. Тогда метод обучения – это функция, определенная на множестве всех возможных обучающих выборок и принимающая значения в множестве.

–  –  –

Функционал качества (а равно и функционал потерь) – это функция, определенная для всякой выборки и решающей функции. Если

– тестовая выборка, то значение функционала ( )) ( можно считать оценкой обобщающей способности метода обучения.

Впрочем, эта оценка верна лишь для конкретных обучающей и тестовой

–  –  –

Как правило, в задачах машинного обучения используется признаковое описание объектов, т.е. объект задается некоторым набором измеренных для него значений. В настоящей работе мы будем считать, что все признаки являются значениями некоторых вещественных функций, определенных на множестве объектов. Поэтому для простоты мы будем считать, что множество объектов является множеством признаковых описаний, т.е..

В зависимости от множества ответов различают следующие задачи машинного обучения:

–  –  –

Задачи текстовой классификации часто не укладываются в стандартную схему мультиклассификации: как правило, в реальных задачах оказывается возможной ситуация, при которой некоторым документам сопоставляются более одного класса, а некоторым документам не сопоставляются никакие классы.

Поэтому вполне естественно рассматривать задачу текстовой классификации с классами как бинарных задач классификации. В таком случае ясно и то, каким образом можно приписывать документу более одного класса, и то, каким образом измерять качество. Кроме того, оказывается возможным настраивать параметры алгоритма под каждый

–  –  –

() { Эта функция и будет целевой функцией задачи бинарной классификации текстов. Решением задачи является решающая функция, определенная на множестве всех возможных документов (т.е. произвольных последовательностей термов) и принимающая значения в множестве { }.

Оценка качества методов классификации 1.1

–  –  –

Все рассматриваемые показатели качества являются общеизвестными. Целью настоящего раздела является их формулировка с использованием принятых в настоящей работе обозначений, а также обоснование выбора конкретных характеристик качества, которые затем будут использоваться в работе.

–  –  –

1.1.1 Метрики точности и полноты

Определим следующие величины:

количество верно определенных экземпляров положительного класса (true positives, TP):

( ) [ () ] количество верно определенных экземпляров отрицательного класса (true negatives, TN):

( ) [ () ]

–  –  –

( ) [ () ] количество неверно определенных экземпляров отрицательного класса (false negatives, FN):

( ) [ () ] Используя эти величины, можно определить метрики точности (precision, P) и полноты (recall, R) [28]:

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) Эти метрики весьма просто интерпретируются: точность – это доля верно определенных экземпляров положительного класса среди всех объектов, отнесенных решающей функцией к положительному классу; полнота – это доля верно определенных экземпляров положительного класса среди всех объектов, относящихся к положительному классу.

Такая интерпретация является весьма естественной для многих приложений. Рассмотрим, к примеру, новостной сервис, задача которого

– продемонстрировать пользователю страницу, содержащую новости по некоторой тематике. Для такого сервиса вполне естественными являются следующие вопросы:

Какая доля показанных новостей действительно относятся к заявленной тематике?

Какова доля показанных новостей среди всех новостей, относящихся к данной тематике?

Легко видеть, что значение метрики точности является ответом на первый вопрос, а значение метрики полноты – ответом на второй вопрос.

Столь естественная интерпретация метрик точности и полноты является причиной весьма частого использования на практике этих метрик, а также метрик, производных от них.

Загрузка...

1.1.2 Метрика Accuracy

Метрика Accuracy [26] определяется следующим образом:

( ) ( ) ( ) || В качестве соответствующего функционала потерь используется метрика Error:

( ) ( ) ( ) ( ) || Интерпретация этих метрик также достаточно очевидна. Значение метрики Accuracy равняется доле верных, а метрики Error – доле ошибочных предсказаний среди всех предсказаний.

Данные метрики находят свое применение в различных задачах классификации и мультиклассификации, однако именно в задачах текстовой классификации (и некоторых других задачах бинарной классификации) их использование представляется сомнительным.

Задачи текстовой классификации, как правило, являются сильно несбалансированными, т.е. количество объектов отрицательного класса значительно превосходит количество объектов положительного класса.

В такой ситуации использование метрик, для которых верные отрицательные предсказания столь же важны, сколь и верные положительные предсказания, могут привести к совершенно неадекватным результатам. Рассмотрим простой пример, сравнив две решающих функции, и, на выборке размера 1000:

–  –  –

Более того, оказывается [40], что решающая функция, всегда предсказывающая отрицательный класс, с точки зрения метрики может превосходить любые нетривиальные методы Accuracy классификации. Ясно, что причиной этого является нечувствительность метрики к распределению верных ответов между положительным и отрицательным классом, как замечено в [7].

1.1.3 Метрика AUC

–  –  –

Тогда метрику AUC [25] можно определить как вероятность того, что для пары из случайно выбранного экземпляра положительного класса и случайно выбранного экземпляра отрицательного класса величина функции окажется большей для экземпляра положительного класса. Легко будет определить ее значение, введя следующие обозначения:

{ } | { } |

–  –  –

( ) |() ( )| | | | |

–  –  –

В то же время легко видеть, что применимость этой метрики в задачах текстовой классификации также вызывает вопросы. Прежде всего, вероятностная формулировка метрики AUC не находит адекватной интерпретации с точки зрения решения пользовательских задач. Кроме того, эта метрика также оказывается весьма плохо применимой в задачах с большой несбалансированностью классов.

1.1.4 Комбинированные метрики Итак, из этого краткого обзора становится понятным, что метрики точности и полноты являются наиболее адекватными метриками качества классификации.

В то же время, каждая из них по отдельности не является хорошим выбором. Так, весьма просто построить классификатор, полнота которого будет равняться единице: достаточно для всех объектов предсказывать положительный класс. Ясно при этом, что такой классификатор не будет качественно решать задачу. Как правило, не составляет сложности построить и классификатор, обладающий точностью, близкой к единице: например для этого, достаточно построить правило, выделяющее какой-либо один элемент положительного класса.

Поэтому, как правило, используются некоторые комбинированные метрики, использующие при вычислении метрики точности и полноты. Все эти метрики также основываются на предположении, что значения решающей функции определяется формулой () (() ) где – некоторая вещественная функция, определенная на.

Рассмотрим здесь некоторые из них:

Точность, усредненная по 11 точкам (eleven-point average precision [26]). Метрика классификации, аналогичная часто использующейся в информационном поиске метрике средней

–  –  –

Параметр выступает в качестве коэффициента, который отражает «важность» точности в сравнении с полнотой. Особый интерес представляет частный случай, для которого метрика называется сбалансированной или просто -мерой, а ее значение становится в точности равным среднему гармоническому точности и полноты. Эта метрика качества также весьма часто используется в литературе, посвященной классификации текстов (см., например, [7,24,38]).

В настоящей работе в качестве основной метрики для оценки качества классификации используется -мера.

Использование метрик, аналогичных метрике MAP, опирается на достаточно произвольный выбор точек разбиения, который, очевидно, оказывает существенное влияние на значение метрики.

Использование же точки равновесия точности и полноты, на взгляд автора, представляется методологически неверным, т.к. для определения точки равновесия на тестовой выборке необходимо использовать разметку. Стоит также обратить внимание на следующие недостатки этой метрики, нашедшие отражение в литературе:

равновесное значение, вычисленное после интерполяции графиков точности и полноты, не реализуется на практике ни для одного значения порога [34];

получение равных точности и полноты не является естественным для всех возможных приложений текстовой классификации [34];

весьма сложно вычислять и интерпретировать значения этой метрики, ни для одной величины порога метрики точности и полноты не принимают достаточно близких значений [40].

Методы решения задачи текстовой классификации 1.2 Рассмотрим теперь несколько известных в литературе методов решения задачи текстовой классификации.

1.2.1 Наивный байесовский метод В простейшем варианте наивного байесовского метода [11,26] используется модель представления документа, носящая название bag of words. Это название подчеркивает тот факт, что модель рассматривает документ как множество (в лучшем случае – мультимножество) входящих в него слов без учета очередности их упоминания.

В таком случае признаковым описанием документа является вектор вхождений слов в этот документ (для этого все используемые в документах слова необходимо предварительно соответствующим образом пронумеровать).

В наивном байесовском методе вероятность того, что документ, содержащий слова, принадлежит классу, вычисляется следующим образом:

(| ) () ( |)

–  –  –

оценки могут быть получены по принципу максимума правдоподобия [26].

Наивный байесовский метод, несмотря на свою простоту, является достаточно мощным методом, который до сих пор достаточно активно исследуется. Среди направлений исследований можно отметить следующие:

–  –  –

1.2.2 Метод ближайших соседей Метод ближайших соседей [26] – простейший метрический классификатор. Имея некоторую меру сходства объектов, т.е. функцию [ ], можно относить каждый объект к тому классу, к которому принадлежит ближайший к нему с точки зрения меры объект обучающей выборки. Такой метод называется методом ближайшего соседа.

Для повышения надежности классификации объект относят к тому классу, которому принадлежит большая часть его соседей. Метод, в котором для предсказания используются соседей, называется методом k ближайших соседей (kNN).

–  –  –

Чрезвычайно высокая размерность признакового пространства, влекущая за собой высокую вычислительную сложность применения метода.

Высокая чувствительность к масштабу признаков.

Сложность решения вопроса об оптимальном значении коэффициента k.

В связи с этим, для метода k ближайших соседей важными оказываются вопросы отбора и выделения признаков [26], нормализации значений признаков [26], использования эффективных структур для поиска ближайших соседей [3,10,13] и др.

1.2.3 Оценка качества Приведем результаты оценки качества различных методов классификации на коллекции Reuters-21578 [24], приведенные в [26].

–  –  –

Рис. 1.1. Сравнение различных методов классификации на коллекции Reuters-21578.

Впрочем, необходимо отметить, что методика получения приведенных оценок отличается от методики, используемой в настоящей работе. Конкретнее, приведенные оценки верны для некоторого фиксированного разбиения коллекции на обучающую и тестовую выборки. Такого рода оценка может быть смещенной и, кроме того, легко поддается «накрутке», т.к. фактически возможно осуществлять обучение внешних параметров алгоритмов по тестовой выборке. В настоящей работе используется метод скользящего контроля [46,47], который подробно описан в главе 3 и который не обладает этим недостатком, а, кроме того, позволяет получать несмещенные оценки обобщающей способности алгоритмов.

2. ЗАДАЧА КЛАССИФИКАЦИИ ТЕКСТОВ

Линейные методы классификации 2.1 2.1.1 Наивный байесовский метод и его модификации

–  –  –

Наивная гипотеза заключается в том, что слова в документах появляются независимо друг от друга. При принятии наивной гипотезы вероятность порождения документа при условии его принадлежности рассматриваемому классу оказывается равной () ( ) Для удобства анализа обычно рассматривают логарифм этой вероятности:

() ( )

–  –  –

( ) () [ ] Тогда вес документа перепишется в виде () ( ) () ( ) Введем также обозначение () ()

–  –  –

() ( ( ) )

Приравняв частную производную нулю, получим:

() ( ) ( ) () ( )

–  –  –

() т.е.

( ) ( ) () Полученная формула – аналог стандартной формулы наивного байесовского метода.

Выберем теперь в качестве функционала потерь функционал ( ( )) В некотором смысле он аналогичен сумме квадратов отклонений – функционалу, часто используемому в регрессионном анализе, поскольку наилучшим значением веса ( ) является ноль.

–  –  –

( ( )) ( ( ) )

Приравняем нулю частную производную:

() () ( ) ()

–  –  –

() () т.е.

( ) () ( ) () () Полученная формула не является явной, поэтому для вычисления величин ( ) в настоящей работе используется метод простых итераций. Эти величины инициализируются по формуле наивного байесовского метода из п. 2.1., а затем итерационно уточняются по формуле, полученной в настоящем пункте.

–  –  –

( ( )) ( ( )) ( ( ) )

Приравняем частную производную нулю:

( ) () ( ) ( ) ( ) ( ) ( ) () т.е.

( ) ( ) ( ) ( ) () ()

–  –  –

() ( ) () () () т.е.

( ) ( ) () ( ) () ( ) ( ) ( ( ) () () )

–  –  –

Решающая функция для байесовских методов определяется формулой () () ( ) () где параметр выбирается по обучающей выборке таким образом, чтобы величина -меры была максимальной.

2.1.2 Логистическая регрессия

–  –  –

( ) ( ) ( ) ( ) К сожалению, получить явные формулы для величин из условия не представляется возможным, поэтому для их нахождения используется алгоритм градиентного спуска. В качестве ускорения этого метода используется метод стохастического градиентного спуска [5,26]:

на каждой итерации спуск осуществляется с учетом одного случайно выбранного документа. В настоящей работе этот метод модифицируется: на каждой итерации спуск осуществляется с учетом двух случайно выбранных документов: и.

Решающая функция, определяемая формулой () ( ) меняет свое предсказание при переходе величины через ноль.

Логит-функция, используемая при определении функционала потерь, обладает поэтому следующим недостатком: величина ее производной в нуле равняется, тогда как в положительной области производная стремится к единице. Это означает, что метод логистической регрессии будет стремиться скорее уменьшать количество грубых ошибок, а не уменьшать непосредственно количество ошибок.

Чтобы снизить влияние этого недостатка на качество модели, предлагается ввести в функционал потерь смещения для предсказаний:

( ( () ))

–  –  –

( ( )) в точке растет и приближается к единице. Таким образом, метод обучения становится более требовательным с точки зрения «зазора»

между классами.

Формула для производной в таком случае будет выглядеть следующим образом:

( ) ( ) ( ) ( ) Предположим теперь, что тестовое множество документов известно на этапе обучения, но отношение документов этого множества к исследуемому классу не известно. Точнее, тестовое множество известно, но является неразмеченным в процессе обучения. Таким образом, оптимизация параметров модели с использованием документов из множества стандартными способами невозможна.

Введем теперь иной функционал потерь, использующий элементы множества :

() ( )) ( ( ) где – параметр алгоритма. Слагаемое ( ) обеспечивает наличие положительных предсказаний на неразмеченной коллекции. Таким образом, потенциальный эффект заключается в повышении полноты классификации на тестовом множестве, что особенно актуально в ситуации недостаточного размера обучающей выборки. Присутствие стандартного функционала потерь при этом не позволяет потерять в точности. Выбором величины коэффициента можно регулировать соотношение приобретенной полноты и потерянной точности.

–  –  –

Модельные деревья решений 2.2 Дерево решений [26,29,30,39,43,54] – это бинарное дерево, предназначенное для получения предсказаний на основании набора признаков, описывающих предъявляемый объект. В каждом узле дерева осуществляется проверка того или иного условия; на основании результата этой проверки выполнение алгоритма перемещается в левое или в правое поддерево рассматриваемого узла. Процедура повторяется в каждом посещенном узле до тех пор, пока очередной узел не окажется листом. В этом случае осуществляется предсказание на основании модели, размещенной в листе.

Дерево решений можно рассматривать и в качестве линейной модели. В самом деле, фактически дерево решений осуществляет разбиение признакового пространства на непересекающиеся подпространства. Каждое из таких подпространств является множеством объектом, попадающих в соответствующий лист дерева. Пусть

– разбиение, порождаемое деревом решений, а

– модели, соотнесенные соответствующим листьям.

Тогда предсказание дерева можно записать в виде ( ()[ ]) В листьях дерева, как правило, используются чрезвычайно простые модели: например, константные предсказания: для задач регрессии – средние величины ответов на объектах обучающей выборки, попадающих в этот лист, для задач классификации – класс, наиболее часто встречающийся среди объектов обучающей выборки, попадающих в этот лист.

В настоящей работе будут исследоваться решающие деревья только применительно к задаче регрессии. Традиционно решающие деревья, осуществляющие константные предсказания в листьях, называют регрессионными деревьями, тогда как деревья, осуществляющие в листьях предсказания с использованием более сложных моделей, называют модельными [30,39].

Условия, проверяемые в узлах дерева, суть сравнения некоторого признака объекта с пороговым значением. Теоретически возможны и более сложные условия, но в задачах построения деревьев решений они не находят значительного распространения.

Процесс построения дерева решения можно описать следующим образом. Изначально дерево пусто. В него добавляется корневая вершина, содержащая всю обучающую выборку. Выбирается разделяющее правило – т.е. выбираются некоторый признак и некоторый порог. После этого образуются две новых вершины, непосредственные потомки корневой вершины, одна из которых содержит те объекты, для которых значение выбранного признака превосходит порог, а другая – те объекты, для которых значение выбранного признака не превосходит порог. Затем процедура повторяется в каждой из вновь образованных вершин. Применяемые критерии останова весьма разнообразны: получение подвыборки с чрезвычайно малой ошибкой, получение подвыборки чрезвычайно малого размера, превышение максимально допустимого удаления от корневой вершины, и т.д.

–  –  –

{ | } { | } Дисперсия значений целевой функции (для простоты изложения будем использовать смещенную оценку) в исходном множестве равняется () ( ) || ||

–  –  –

Традиционный способ решения этой задачи заключается в следующем. Отсортируем пары из множества в порядке неубывания первой компоненты:

{ } Тогда множество возможных значений порога можно считать состоящим из средних величин идущих подряд в этом списке первых компонент пар:

{ } где Заметим, что дисперсия значений целевой функции для множества пар выражается через три величины: мощность этого множества, сумму значений целевой функции в этом множестве и сумму квадратов значений целевой функции в этом множестве. Введем соответствующие обозначения:

() || () ()

–  –  –

() () () ( ) () ()

–  –  –

( ) () () ( ) () () ( ) () () поэтому процесс поиска оптимального порога можно свести к следующему алгоритму.

–  –  –

В качестве оптимального порога выбрать тот, для которого значение функционала качества оказалось максимальным.

Таким образом, весь алгоритм выполняется за время, пропорциональное длине выборки (если не учитывать затраты на сортировку пар) для одного признака. Если в задаче имеется признаков, то, очевидно, поиск наилучшего из разбиений по всем ( ), что факторам окажется возможным выполнить за время оказывается вполне допустимым даже для весьма объемных выборок.

В настоящей работе будут рассматриваться модельные деревья, в листьях которых предсказание осуществляется линейной моделью. То есть в листьях деревьев будет решаться задача многомерной линейной регрессии. Дисперсия ответов в листе может рассматриваться теперь как верхняя оценка для среднего квадрата отклонения предсказаний линейной регрессии. Впрочем, эта оценка весьма груба. Использование более точных оценок может оказаться хорошим способом повысить качество предсказаний модельных деревьев.

Рассмотрим теперь способы получения оценок для качества многомерных линейных регрессионных моделей, допускающих эффективное обновление при изменении выборки. Будут рассмотрены четыре способа построения оценок как:

ошибки одномерной линейной регрессии, построенной по тому признаку, который используется в разбиении;

наименьшей из ошибок одномерных линейных регрессий, построенных по каждому из признаков;

ошибки многомерной линейной регрессии, построенной методом градиентного бустинга;

ошибки многомерной линейной регрессии, построенной методом многократного решения задачи одномерной линейной регрессии.

Изложение в основном будет касаться только вопросов обновления интересующих нас величин, при этом опускаются детали общего алгоритма нахождения оптимального разбиения, т.к. они уже были рассмотрены в связи с обновлением дисперсии ответов.

Ясно, что вопрос о наименьшей из ошибок одномерных линейных регрессий сводится к задачам об ошибке одномерной линейной регрессии, поэтому нет нужды в его отдельном рассмотрении.

2.2.1 Одномерная линейная регрессия

–  –  –

() где и – параметры модели, которые необходимо определить.

Качество приближения целевой функции будем оценивать при помощи функционала потерь :

( ) ( ( ) ) ( ) Рассмотрим сейчас наиболее простую ситуацию, в которой данные центрированы:

Найдем формулы для вычисления коэффициентов и, приравняв нулю соответствующие частные производные функционала :

( ) ( )

–  –  –

При этом величина функционала потерь для одномерной линейной регрессии будет вычисляться следующим образом:

( ) ( ) ( ) ( ) ( ) Рассмотрим теперь случай нецентрированных данных. Пусть и

– векторы объектов и ответов, смещенных на и соответственно:

Предсказание ( ) будет предсказанием несмещенного ответа, поэтому в качестве решающей функции в смещенном случае, как

–  –  –

( )( ) ( )

Рассмотрим знаменатель этой дроби:

( )

–  –  –

( ) ( )

Рассмотрим теперь числитель:

( )( )

Введем обозначения:

В этих обозначениях получаем ( )

Легко найти и выражение для значения функционала потерь:

( ) ( ) ( )

–  –  –

( ) (( ) )

Введем обозначение:

и определим взвешенные аналоги рассмотренных выше величин:

Тогда коэффициенты линейной модели могут быть найдены по формулам а величина функционала потерь – по формуле ( ) ( )

Заметим, что сумма отклонений оказывается равной нулю:

( ) ( )

Поэтому сумма предсказаний всегда равна сумме ответов:

( ) Сумма квадратов отклонений, равная величине функционала потерь, выражается следующим образом:

( ) ( ) ( ) ( ) ( ) Поэтому сумма взвешенных квадратов предсказаний может быть вычислена так:

( ) ( ) т.е. за константное время при условии, что уже вычислены все величины, необходимые для вычисления ( ).

Сумма взвешенных произведений предсказаний ( ) также может быть найдена за константное время при тех же условиях.

2.2.2 Инкрементальное обновление Легко видеть, что полученные формулы позволяют за константное время производить вычисление коэффициентов модели и величины функционала потерь при добавлении нового объекта с весом, ответ на котором равен.

–  –  –

() Для простоты мы будем рассматривать модели без свободного члена. Наличие свободного члена легко моделируются путем введения дополнительного признака, равного единице для всех объектов.

Частная производная функционала потерь по j-й компоненте вектора равна ( ) ( ) Как известно, приравнивание частных производных нулю приводит к нормальной системе метода наименьших квадратов:

–  –  –

( )

Величина ошибки в таком случае запишется следующим образом:

( ) ( ) ( )

–  –  –

( ) ( ) ( ) ( ) ( )

–  –  –

Рассмотрим теперь вопрос вычисления ошибки многомерной линейной регрессии для заданного решения. Как уже было показано выше, ( )

–  –  –

Запишем выражение для частной производной функционала потерь по j-й компоненте вектора :

( ) ( )

–  –  –

( )) ( т.е.

( ) где – темп обучения. Оптимальный выбор темпа обучения приводит нас к методу наискорейшего спуска [44]. Величину можно найти, приравняв нулю соответствующую частную производную функционала качества, который теперь записывается так:

( ( ) )

Приравняем нулю частную производную по :

( ( ) ) ( )

–  –  –

( ) ( ) ( )

–  –  –

( ) ( ) ( )

–  –  –

( ) ( ) ( ) ( )( )

–  –  –

( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( )

–  –  –

В частности, возможно эффективное итерационное нахождение решения задачи многомерной линейной регрессии методом градиентного бустинга за время (( ) ) где – количество итераций.

В качестве начального приближения в настоящей работе используется наилучшая из одномерных линейных регрессий. Ясно, что такое решение обновляется за время, линейное по количеству факторов, а поэтому не влияет на асимптотическую оценку времени выполнения всего метода.

Рассмотрим теперь следующий процесс построения решения.

Пусть имеется некоторое текущее решение. С этим решением связан вектор ошибок:. Теперь можно составить задач одномерной линейной регрессии для каждого имеющегося фактора, используя в качестве вектора откликов. Выберем среди решений этих задач то, для которого остаточная сумма квадратов отклонений минимальна. Пусть это решение задачи для j-го фактора и полученный в ней коэффициент равен. Тогда модифицируем текущее решение, изменив соответствующий коэффициент:, не изменяя при этом остальные коэффициенты.

Легко видеть, что ошибка всей модели ( ) оказывается равной ошибке последней использованной одномерной линейной модели, т.к.

( ) Поэтому для ответа на вопрос о величине ошибки модели, построенной за шагов этого метода, достаточно знать ответ на вопрос о величине ошибки последней построенной одномерной линейной модели.

Для решения задач одномерной линейной регрессии, как было показано выше, необходимо знать пять величин: суммы значений и суммы квадратов значений факторов и откликов, а также сумму произведений факторов и откликов. В этом случае и решение задачи, и величина ошибки вычисляются за константное время.

Сложность состоит в том, что в предлагаемом методе вектор ответов постоянно меняется. Впрочем, оказывается, что соответствующие величины допускают эффективное обновление.

Нас будут интересовать только три величины: сумма откликов и сумма квадратов откликов, а также сумма произведений факторов и откликов. В самом деле, суммы значений и суммы квадратов значений факторов при изменении только вектора откликов не изменяются.

Что касается суммы откликов, то на первой итерации она равняется исходной сумме откликов, а для всех следующих итераций равна нулю, т.к., как было показано выше, сумма ошибок одномерной линейной регрессии равняется нулю.

Сумма квадратов откликов для текущего шага равняется, как легко видеть, сумме квадратов ошибок модели на предыдущем шаге.

Таким образом, единственной величиной, обновление которой не является тривиальным, является сумма произведений факторов и откликов. Обозначим ее через для l-го фактора на k-й итерации:

На следующей итерации эта величина может быть вычислена следующим образом:

( ) То есть, при известной матрице она обновляется за константное время для каждого из факторов, т.е. каждая итерация предлагаемого метода требует линейного по количеству факторов времени. Впрочем, необходимость предварительного вычисления матрицы оставляет общую оценку сложности метода квадратичной от числа факторов: время на предобработку оценивается как ( ), а итераций оценивается как ( ).

время на

–  –  –

При этом будем считать, что имеется семейство базовых алгоритмов, каждый из которых осуществляет некоторое отображение множества в множество вещественных чисел.

–  –  –

Тогда процесс построения очередного базового алгоритма выглядит следующим образом. Сформируем новую обучающую выборку:

( ) { } ()

–  –  –

Описанный метод отличается как от методов, использующих фиксированный коэффициент сжатия, в котором коэффициент постоянно принимается равным единице (как, например, происходит в методе TreeNet [14]), так и от методов, в которых коэффициент сжатия всегда принимается равным единице, а коэффициент выбирается оптимальным образом (например, в классическом методе AdaBoost [12]).

Используемая техника соединяет в себе оба подхода, получая лучшее от каждого из них. С одной стороны, определение оптимального коэффициента позволяет избежать как излишнего переобучения (в ситуациях, когда оптимальный коэффициент оказывается существенно меньше единицы), так и излишнего недообучения (в ситуациях, когда оптимальный коэффициент оказывается существенно больше единицы).

С другой стороны, постоянное использование оптимального значения, как правило, приводит к переобучению, поэтому использование коэффициента сжатия, меньшего единицы, может оказаться необходимым для построения качественных моделей.

Кроме того, необходимо заметить, что использование коэффициента позволяет не задумываться о сравнимости масштабов предсказаний на различных итерациях, что также может оказаться полезным при оптимизации достаточно сложных функционалов потерь.

2.3.1 Алгоритмические композиции в задаче регрессии Применим описанную выше схему для решения задачи регрессии.

В таком случае необходимо считать тождественной функцией, а функционалы и – обыкновенными функционалами суммы квадратов отклонений:

( ) ( ) ( ( ) ) Производная функционала потерь по конкретному предсказанию вычисляется чрезвычайно просто:

( ) ( () ) () Для простоты коэффициентом можно пренебречь, т.к. в любом случае он будет учтен при определении коэффициента. Таким образом, обучающие выборки будут формироваться в соответствии со следующей формулой:

{ ( )} Другими словами, каждый очередной базовый алгоритм будет пытаться предсказать невязки композиции на текущем шаге.



Pages:   || 2 | 3 |
Похожие работы:

«Яковлева Татьяна Викторовна МАТЕМАТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ДАННЫХ В УСЛОВИЯХ ПРИМЕНИМОСТИ СТАТИСТИЧЕСКОЙ МОДЕЛИ РАЙСА 05.13.17 – теоретические основы информатики Диссертация на соискание ученой степени доктора физико-математических наук Научный консультант: Доктор физико-математических наук, академик А.Л.Семенов Москва – 2014 ОГЛАВЛЕНИЕ Оглавление...»

«ВАЙСМАН ДАВИД ШУНЕВИЧ СОВЕРШЕНСТВОВАНИЕ СИСТЕМЫ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ ОЦЕНКИ И АНАЛИЗА СМЕРТНОСТИ НАСЕЛЕНИЯ НА УРОВНЕ СУБЪЕКТА РОССИЙСКОЙ ФЕДЕРАЦИИ 14.02.03 – Общественное здоровье и здравоохранение Диссертация на соискание ученой степени доктора медицинских наук Научный консультант: доктор медицинских наук, профессор И.М....»

«АБРАМОВ Константин Германович МОДЕЛИ УГРОЗЫ РАСПРОСТРАНЕНИЯ ЗАПРЕЩЕННОЙ ИНФОРМАЦИИ В ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЯХ Специальность: 05.12.13 – Системы, сети и устройства телекоммуникаций Диссертация на соискание ученой степени кандидата технических наук Научный руководитель д.т.н., проф....»

«Конорев Максим Эдуардович ВИРТУАЛЬНЫЙ ИСТОРИЧЕСКИЙ АРХИВ КАК СРЕДСТВО ИНФОРМАТИЗАЦИИ ИСТОРИЧЕСКОГО ОБРАЗОВАНИЯ ПРИ ПОДГОТОВКЕ БАКАЛАВРОВ В ВУЗЕ 13.00.02 – теория и методика обучения и воспитания (информатизация образования) Диссертация на соискание ученой степени кандидата педагогических наук Научный руководитель: доктор педагогических...»

«Конфектов Михаил Николаевич Картографирование типов застройки Подмосковья по космическим снимкам Диссертация на соискание ученой степени кандидата географических наук по специальности 25.00.33 картография Научный руководитель: в. н. с., д. г. н. Кравцова В. И. Москва, 2015 Содержание ВВЕДЕНИЕ 1. ГЕОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ УСЛОВИЯ ФОРМИРОВАНИЯ ЗАСТРОЙКИ...»

«ХОРОШИЛОВ АЛЕКСЕЙ АЛЕКСАНДРОВИЧ МЕТОДЫ, МОДЕЛИ, АЛГОРИТМЫ И ЭКСПЕРИМЕНТАЛЬНОЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ АВТОМАТИЧЕСКОГО ВЫЯВЛЕНИЯ НЕЯВНО ВЫРАЖЕННЫХ ЗАИМСТВОВАНИЙ В НАУЧНОТЕХНИЧЕСКИХ ТЕКСТАХ 05.13.17 – «Теоретические основы информатики» Диссертация на соискание ученой степени кандидата технических наук Научный руководитель д.т.н., доц. В.Н. Захаров Москва 2015 Оглавление Термины,...»

«Рафикова Юлия Юрьевна ГЕОИНФОРМАЦИОННОЕ КАРТОГРАФИРОВАНИЕ РЕСУРСОВ ВОЗОБНОВЛЯЕМЫХ ИСТОЧНИКОВ ЭНЕРГИИ (на примере Юга России) Диссертация на соискание ученой степени кандидата географических наук Специальность 25.00.33 «Картография» Научный руководитель Доктор географических наук, профессор Б.А. Новаковский Москва 201 Содержание Введение.. Глава 1....»

«Морозов Роман Викторович МОДЕЛЬ И МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОЙ ПОДДЕРЖКИ ПРИНЯТИЯ УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ ПО ПОЖАРНОЙ БЕЗОПАСНОСТИ ЗДАНИЙ СФЕРЫ ОБРАЗОВАНИЯ 05.13.01 – Системный анализ, управление и обработка информации (информатика, вычислительная техника и управление) Диссертация на соискание ученой степени кандидата технических наук Научный...»

«Карпов Евгений Сергеевич Статистическое исследование патентной активности в России и странах мира Специальность 08.00.12 – Бухгалтерский учет, статистика Диссертация на соискание ученой степени кандидата экономических наук Научный руководитель: доктор экономических наук, профессор Архипова...»

«ЗУДОВ АНТОН БОРИСОВИЧ МОДЕЛЬНЫЕ ПРЕДСТАВЛЕНИЯ И АЛГОРИТМЫ ПРОВЕРКИ ПРАВИЛ В АКТИВНЫХ БАЗАХ ДАННЫХ Специальность: 05.13.17 – Теоретические основы информатики Диссертация на соискание ученой степени кандидата технических наук Научный руководитель: доктор технических наук профессор Макарычев П.П. ПЕНЗА 2015 СОДЕРЖАНИЕ Введение 1 АНАЛИЗ МОДЕЛЕЙ, МЕТОДОВ И СРЕДСТВ ПОСТРОЕНИЯ АКТИВНЫХ БАЗ ДАННЫХ 1.1 Анализ современных технологий обработки...»

«АКСЕНОВ Алексей Юрьевич МОДЕЛИ И МЕТОДЫ ОБРАБОТКИ И ПРЕДСТАВЛЕНИЯ СЛОЖНЫХ ПРОСТРАНСТВЕННЫХ ОБЪЕКТОВ Специальность 05.13.01 – Системный анализ, управление и обработка информации (технические системы) Диссертация на соискание ученой степени кандидата технических наук Научный руководитель: доктор технических наук, Кулешов С.В....»

«УДК 519.63 БЕКЛЕМЫШЕВА Катерина Алексеевна Численное решение трехмерных задач динамического нагружения сложных конструкций Специальность 05.13.18 «Математическое моделирование, численные методы и комплексы программ» Диссертация на соискание ученой степени кандидата физико-математических наук Научный руководитель доктор физико-математических наук профессор И.Б. Петров МОСКВА – 2014...»

«Зайцев Владислав Вячеславович РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДИКИ ПРОЕКТИРОВАНИЯ БАЗЫ МЕТАДАННЫХ ХРАНИЛИЩА ГЕОДАННЫХ Специальность 25.00.35 – «Геоинформатика» ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук Научный руководитель д-р техн. наук, проф. А.А. Майоров Москва 2015   ОГЛАВЛЕНИЕ...»

«Родионова Татьяна Васильевна Исследование динамики термокарстовых озер в различных районах криолитозоны России по космическим снимкам Диссертация на соискание ученой степени кандидата географических наук по специальности 25.00.33 картография Научный руководитель: в. н. с., д. г. н. Кравцова В. И. Москва 2013 Оглавление Введение...3 1. Термокарстовые озера...»

«КОНОВАЛОВ Михаил Александрович РАЗРАБОТКА МОДЕЛИ И АЛГОРИТМОВ ФУНКЦИОНИРОВАНИЯ ЕДИНОЙ ИНФОРМАЦИОННОЙ СРЕДЫ ДЛЯ АВТОМАТИЗАЦИИ ПРОИЗВОДСТВА НАВИГАЦИОННОЙ АППАРАТУРЫ 05.13.06 – Автоматизация и управление технологическими процессами и производствами (связь и информатизация) Диссертация на соискание ученой степени кандидата технических наук Научный руководитель доктор технических наук, профессор Свиньин...»

«САВОСТЬЯНОВА ИРИНА ЛЕОНИДОВНА МЕТОДИЧЕСКАЯ СИСТЕМА ФОРМИРОВАНИЯ ПРОФЕССИОНАЛЬНОЙ ИНФОРМАЦИОННОЙ КОМПЕТЕНТНОСТИ БУДУЩИХ БАКАЛАВРОВ-ЭКОНОМИСТОВ В ДИСЦИПЛИНАХ ИНФОРМАЦИОННОГО ЦИКЛА 13.00.02 – Теория и методика обучения и воспитания (информатика, уровень высшего профессионального образования) Диссертация на соискание ученой степени кандидата...»

«Андреева Надежда Михайловна МЕТОДИКА ИСПОЛЬЗОВАНИЯ ДОРОЖНЫХ КАРТ ПРИ ЭЛЕКТРОННОМ ОБУЧЕНИИ СТУДЕНТОВ ИНФОРМАТИКЕ (на примере экономических и биологических направлений подготовки) 13.00.02 – Теория и методика обучения и воспитания (математика, уровень профессионального образования) ДИССЕРТАЦИЯ на соискание учёной степени кандидата...»

«НИКОНОРОВ Артем Владимирович ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ВОССТАНОВЛЕНИЯ ЦВЕТНЫХ И...»

«Вовченко Алексей Евгеньевич Рассредоточенная реализация приложений в среде предметных посредников 05.13.11. математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук Научный руководитель Доктор физико-математических наук, профессор Калиниченко Л.А. МОСКВА Оглавление Введение...»

«Агрова Ксения Николаевна МЕТОД, АЛГОРИТМ И СТРУКТУРНО-ФУНКЦИОНАЛЬНАЯ ОРГАНИЗАЦИЯ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ОБ УЧАСТИИ КОМПАНИЙ НА ЭЛЕКТРОННЫХ ТОРГОВЫХ ПЛОЩАДКАХ Специальность 05.13.10 «Управление в социальных и экономических системах» Диссертация на соискание ученой степени кандидата...»









 
2016 www.konf.x-pdf.ru - «Бесплатная электронная библиотека - Авторефераты, диссертации, конференции»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.