WWW.KONF.X-PDF.RU
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Авторефераты, диссертации, конференции
 

Pages:   || 2 | 3 | 4 |

«РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДИКИ ПРОЕКТИРОВАНИЯ БАЗЫ МЕТАДАННЫХ ХРАНИЛИЩА ГЕОДАННЫХ ...»

-- [ Страница 1 ] --

Федеральное государственное бюджетное образовательное учреждение высшего

профессионального образования

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ГЕОДЕЗИИ И КАРТОГРАФИИ

(МИИГАиК)

На правах рукописи

Зайцев Владислав Вячеславович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДИКИ ПРОЕКТИРОВАНИЯ

БАЗЫ МЕТАДАННЫХ ХРАНИЛИЩА ГЕОДАННЫХ



Специальность 25.00.35 – «Геоинформатика»

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук

Научный руководитель д-р техн. наук, проф. А.А. Майоров Москва 2015  

ОГЛАВЛЕНИЕ

Введение

1. Обзор исследований проводимых в области хранилищ геоданных и стандартизации метаданных в геоинформатике 10

1.1. Обзор исследований проводимых в области хранилищ геоданных 10

1.2. Стандартизация метаданных в геоинформатике

2. Состав базы метаданных хранилища геоданных 39

3. Разработка и исследование методики проектирования базы метаданных хранилища геоданных Заключение Список сокращений и условных обозначений Список литературы Список иллюстрированного материала   Введение Актуальность темы исследования. Развитие геоинформационных технологий способствует накоплению организациями больших объемов данных, представленных в различных форматах. Накопленные за многие годы и собираемые поныне данные, в том числе и пространственные данные, могут стать объектом исследования с целью нахождения новых знаний.

В последнее время в ходе создания и применения инфраструктуры пространственных данных (далее – ИПД) возрос практический интерес к хранилищам данных и оперативной аналитической обработке данных.

В геоинформационных системах (далее – ГИС) данные технологии пока не используются, поскольку ГИС применяют реляционные базы данных, а хранилища данных в основном используют многомерное представление данных1.

Традиционные хранилища данных и инструменты оперативной аналитической обработки поддерживают пространственные данные, но рассматривают их как любые другие данные, не обращая внимания на географический компонент. В этой связи, появилась необходимость в объединении функциональности инструментов оперативной аналитической обработки, хранилищ данных и ГИС.

Таким способом можно создать новые инструменты поддержки принятия решений, лучше приспособленные к пространственно-временному исследованию и анализу данных. Необходимость обеспечения интеграции и совместного использования пространственных данных, полученных из различных источников2, при формировании ИПД, заставила обратить внимание на метаданные.

                                                             Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я.. Прикладная геоинформатика / М.: МАКС Пресс, 2005. – 360 с.

Распоряжение Правительства РФ от 21 августа 2006 г. N 1157-р.

  Метаданные – данные, которые позволяют описывать содержание, объем, положение в пространстве, качество и другие характеристики пространственных данных и пространственных объектов1.

В свою очередь метаданные в среде хранилища данных применяются не только для каталогизации, учета, статистической обработки и анализа данных2, а так же для описания вычислительной среды, информационной безопасности, возможности планирования и восстановления данных. Поэтому под метаданными в среде хранилища данных следует понимать совокупность спецификаций, отражающих информационную модель, описание структуры данных хранилища и источников, а также описание процессов обработки данных, циркулирующих в среде.

Существующие методики проектирования баз пространственных метаданных основываются на стандартах ГОСТ Р 51353-99 «Геоинформационное картографирование. Метаданные электронных карт» и ГОСТ Р 52573-2006 «Географическая информация. Метаданные» и позволяют создать базу метаданных, содержащую описания только характеристик пространственных данных и пространственных объектов.

В свою очередь методика создания баз метаданных хранилищ данных, основанная на спецификации «Общая метамодель хранилища» не позволяет учесть особенности описания характеристик пространственных данных и пространственных объектов.

В этой связи актуальность диссертационного исследования обусловлена следующим:





необходимостью интеграции несопоставимых и нескоординированных между собой пространственных данных в ходе создания ИПД;

неспособностью метаданных в составе ИПД описывать как характеристики пространственных данных и пространственных объектов, так и процессы их обработки в среде хранилища данных;

                                                            

–  –  –

ГОСТ Р 52573-2006 «Географическая информация. Метаданные»    ограниченными возможностями существующих методик проектирования баз метаданных хранилища геоданных.

Степень разработанности темы. Исследования в области создания методики проектирования баз (каталогов) метаданных проводились в МИИГАиК.

Например, исследование Краснобородько А.В. «Исследование и разработка структур баз геоданных информационно-телекоммуникационных систем»

посвящено созданию иерархического каталога метаданных, представляющего основную конструкцию для манипуляции с геоданными в информационнотелекоммуникационной системе. Иерархичность метаданных может выстраиваться по масштабу или охвату территорий.

В ходе создания каталога метаданных автор использует как основу международный стандарт (профиль) ISO 19115 «Географическая информация.

Метаданные». Создаваемый автором перечень метаданных позволяет четко определить объект геоданных и произвести к нему непосредственное обращение2, но не позволяет описывать происходящие с геоданными преобразования.

Для реализации цели, поставленной в работе Зраенко Ю.Д. «Разработка технологии организации пространственных данных в региональном узле Российской инфраструктуры пространственных данных», одной из поставленных задач является разработка состава объектных метаданных и уровней их организации.

Если в основу структуры метаданных единиц хранения подсистемы «Архивная база данных» положен ГОСТ Р 52573-2006 «Географическая информация. Метаданные» как национальный профиль международного стандарта ISO 19115:2003 «Geographic information — Metadata»3, то в подсистеме «Хранилище» объектные метаданные генерируются на основе метафайлов, получаемых из «Архивной базы данных».

                                                             Краснобородько А.В. «Исследование и разработка структур баз геоданных информационнотелекоммуникационных систем»

–  –  –

Зраенко Ю.Д. «Разработка технологии организации пространственных данных в региональном узле Российской инфраструктуры пространственных данных».

 

Далее к подсистеме «Геопортал» подключаются две базы метаданных:

метаданные пространственных объектов и метаданные готовой продукции.

Учитывая, что подготовка выходной продукции выполняется в среде ГИС, отсутствует необходимость в метаданных, описывающих процессы, происходящие с пространственными данными в подсистеме «Хранилище».

В работе Ребрия А.В. «Исследование и разработка методологии создания базы пространственных данных» была разработана логическая структура базы метаданных, отвечающая требованиям стандарта ГОСТ Р 52573-2006 «Географическая информация. Метаданные», совместимая со стандартом ISO 19115 «Географическая информация. Метаданные» и позволяющая перейти к физическому проектированию базы метаданных на любой программной платформе1.

В данной работе автор наиболее полно разработал методику и алгоритмы формирования и ведения базы метаданных геоинформационных продуктов, в которых не применяются метаданные, описывающие процессы трансформации пространственных данных.

Целью диссертационной работы является разработка и исследование методики проектирования базы метаданных хранилища геоданных (далее – БМД ХГД), входящего в состав информационных ресурсов для создания и применения ИПД. Разрабатываемая методика проектирования отличается от существующих методик возможностью создания метаданных, описывающих пространственные данные, а также процессы их преобразования в ходе анализа.

Проектирование базы данных/метаданных подразумевает прохождение трех этапов: концептуального, логического и физического проектирования, результатом каждого из которых будет создание концептуальной, логической и физической модели, соответственно.

Под проектированием в диссертационной работе имеется в виду концептуальное проектирование, так как оно позволяет создать концептуальную модель предметной области без ориентации на конкретную систему управления                                                              Ребрий А.В. «Исследование и разработка методологии создания базы пространственных данных».    базой данных (далее – СУБД) и модель данных. К тому же существующие средства автоматизированного проектирования и создания программ позволяют из концептуальной модели генерировать одну или несколько логических и (или) физических моделей, в зависимости от требуемого уровня представления и подходов к моделированию данных1.

Для достижения поставленной цели в работе были сформулированы и решены следующие основные задачи:

Проведен сравнительный обзор исследований в области ХГД и БМД.

Сформирован базовый набор метаданных, необходимых для создания БМД ХГД.

Описан алгоритм применения базового набора метаданных на этапах развертывания ХГД.

Разработана общая концептуальная модель БМД ХГД в виде диаграммы классов UML.

Проведен сравнительный анализ разработанной методики с существующими методиками проектирования.

Решение перечисленных задач позволило разработать методику проектирования базы метаданных хранилища геоданных.

Методология и методы исследования. Используемые методы исследования включают в себя сравнительный анализ и моделирование. В ходе исследования был проведен анализ нормативно-технических документов в геоинформатике.

Для разработки концептуальной модели предметной области применялся метод объектно-ориентированного моделирования с использованием нотации UML.

Основные результаты, выносимые на защиту:

разработана и исследована методика проектирования БМД, основанная на сформированном автором наборе метаданных и позволяющая создавать БМД одновременно с развертыванием ХГД;

                                                             Нартова А. PowerDesigner 15 Моделирование данных / Изд. «Лори». 2012. – 468 с.

8   автором сформирован базовый набор метаданных, позволяющий создать БМД, описывающую как характеристики пространственных данных и объектов, так и происходящие в среде хранилища данных процессы;

на основе базового набора метаданных разработана общая концептуальная модель БМД, позволяющая путем преобразования в логическую и далее в физическую модель создавать БМД на основе выбранной СУБД и модели данных.

Научная новизна диссертационной работы. Основные результаты диссертационной работы, представляющие научную новизну, заключаются в следующем:

Впервые сформирован набор метаданных для проектирования БМД ХГД, не только организующий доступ к пространственным данным, но и описывающий процессы, происходящие с ними при использовании.

Приведен алгоритм проектирования БМД ХГД, отличающийся от других способов проектирования применяемым набором метаданных и использованием одновременно с построением самого хранилища геоданных.

На основе приведенного набора метаданных впервые была разработана общая концептуальная модель.

Практическая значимость результатов исследования заключается в возможности применения разработанной методики проектирования, набора метаданных и общей концептуальной модели в ходе создания БМД ХГД в составе информационных ресурсов, содержащих пространственные данные и образующих основу для создания и применения ИПД.

Результаты диссертационного исследования используются в учебном процессе в МИИГАиК по дисциплинам: «Информационные технологии» и «Архитектура информационных систем».

Теоретическая значимость результатов исследования состоит в создании теоретических основ методологии проектирования базы метаданных хранилища геоданных, а также научном обосновании методики применения базового набора метаданных на этапах развертывания хранилища геоданных.

  Степень достоверности и апробация результатов диссертационной работы. По теме диссертации был сделан доклад на ежегодной конференции молодых ученных и аспирантов МИИГАиК в 2013 году.

Автор исследования принимал участие в рабочих заседаниях технических комиссий ОАО «Роскартографии» по вопросам, связанным с темой исследования.

Результаты диссертационного исследования были использованы в ходе создания компонента информационной системы ОАО «Уралгеоинформ», а также в ходе создания базы метаданных информационной системы, применяемой для учета единиц хранения результатов работ по созданию геопространственных данных различной точности и детализации ОАО «Сибгеоинформ».

Структура и объем диссертационной работы. Диссертация состоит из введения, первого раздела, содержащего два подраздела, а также второго и третьего разделов, заключения, списка сокращений и условных обозначений, списка литературы и списка иллюстративного материала.

Работа изложена на странице, включает 14 рисунков и 11 таблиц. Список используемой литературы включает 161 наименование.

–  –  –

1.1. Обзор исследований проводимых в области хранилищ геоданных В целях сбора, хранения, обработки, отображения и распространения географических данных, а также получения на их основе новой информации и системы1.

знаний, в настоящее время применяются геоинформационные Географические данные – это пространственные данные, для которых базовой системой координат является земная поверхность. В ГИС кроме пространственных данных используется связанная с ними информация о необходимых объектах, так называемые (непространственные) атрибутивные данные.

Как правило, функции сбора и хранения данных в ГИС переданы базе данных. Иногда этап сбора данных сводится к технологии их ввода в базу данных ГИС. База данных (далее – БД) – совокупность данных организованных по определенным правилам, устанавливающим общие принципы описания, хранения и манипулирования данными, независимая от прикладных программ2. Создание БД и обращение к ней осуществляется с помощью системы управления базами данных.

Исторически сложилось два направления взаимодействия ГИС и СУБД:

гибридные и интегрированные СУБД. Согласно Майклу Н. ДеМерсу3 это разделение связано в основном со способом хранения (совместно или раздельно) пространственных и атрибутивных данных.

                                                             Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 1: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.

ГОСТ 20886-85 Организация данных в системах обработки данных. Термины и определения.

ДеМерс, Майкл Н. Географические информационные системы. Основы / Пер. с англ. Андрианов В. / М.: Дата+, 1999.

  В современных ГИС в основном применяется подход, когда и атрибутивные и пространственные данные хранятся и управляются в единой среде СУБД, а также объектный и объектно-реляционный подходы.

Целесообразно также отметить основные свойства, поддерживать которые присуще любой СУБД – это постоянство и транзакции. В СУБД состояние постоянного объекта подвергается частым изменениям, а в ряде случаев желательно иметь доступ к предшествующим состояниям данных. Транзакции переводят базу данных из одного непротиворечивого состояния в другое.

Поэтому по своему функциональному назначению применяемые в ГИС базы данных являются системами оперативной обработки транзакций (On-Line Transaction Processing – OLTP-системами).

В OLTP-системах за короткое время происходит максимальное количество транзакций, используется фиксированный набор методов ввода, модификации и удаления данных, а также подготовки отчётности. Как правило, OLTP-системы не требуют большой гибкости и их аналитические возможности ограничены.

В этой связи возникла необходимость в разработке систем управления пространственными базами данных (далее – СУПБД). В то время как традиционные БД могут хранить и обрабатывать числовую и символьную информацию, пространственные базы данных (далее – ПБД) обладают расширенной функциональностью, позволяющей хранить целостный пространственный объект, объединяющий атрибутивные и пространственные данные.

ПБД позволяют выполнять аналитические запросы, содержащие пространственные операторы для анализа пространственно-логических отношений объектов (пересекается, касается, содержится в, содержит, находится на расстоянии X от, совпадает и пр.).

                                                              Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я.. Прикладная геоинформатика / М.: МАКС Пресс, 2005. – 360 с.   Шаши Ш., Санжей Ч. Основы пространственных баз данных / М.: Кудиц-образ, 2004. – 34 с. 

–  –  –

  Например, ГИС поддерживает большой набор операций над несколькими объектами и слоями, в то время как СУПБД обеспечивает более простые операции над совокупностями объектов и множествами слоев1. Для этих целей Open Geospatial Consortium Inc. (далее – консорциум OpenGIS), установил стандарты на дополнительную функциональность СУПБД.

Со временем стало понятно, что сбор данных это не главная цель. Появилась необходимость в создании информационных системах, позволяющих проводить глубокую аналитическую обработку данных. Например, поиск скрытых структур и закономерностей в массивах данных, вывод из них правил, которым подчиняется данная предметная область, стратегическое и оперативное планирование, формирование нерегламентированных запросов, принятие решений и прогнозирование их последствий2.

Появился новый класс информационных систем (далее – ИС) – систем поддержки принятия решений (далее – СППР), ориентированных на аналитическую обработку данных с целью получения знаний, необходимых для разработки решений в области управления3. Требования к СППР и OLTPсистемам существенно разняться, в основном по следующим причинам: уровень детализации данных, формат хранения данных, требования к качеству хранящихся данных, возможность редактирования существующих данных, временной период хранения собранных данных, периодичность обновления данных, а также характер выполняемых к данным запросов. Поэтому в СППР применяются специализированные базы данных – хранилища данных (далее – ХД).

Концепция ХД, так или иначе, обсуждалась специалистами в области информационных систем достаточно давно. Первые статьи, посвященные именно ХД, появились в 1988 году, их авторами были Б. Девлин и П. Мерфи. В 1992 году                                                              Шаши Ш., Санжей Ч. Основы пространственных баз данных / М.: Кудиц-образ, 2004. – 36 с.

Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – С. 67.

Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – С. 68.

  Б. Инмон подробно описал эту концепцию в своей монографии «Построение хранилища данных»1.

Согласно определению Б. Инмона, «хранилище данных – это предметно ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений»2.

Все существующие архитектуры ХД (реляционные, многомерные, гибридные или виртуальные) основаны на технологии оперативной аналитической обработки (On-Line Analytical Processing, OLAP). Эта технология представляет собой методику оперативного извлечения нужной информации из больших массивов данных и формирования соответствующих отчетов3.

Загрузка...

Приведем примеры существующих архитектур ХД:

ROLAP – Relational OLAP. Эти ХД используют реляционную модель, что позволяет хранить данные в реляционных таблицах, образующих структуры (схемы «звезда», «снежинка» или «созвездие»), создающие видимость многомерного представления данных.

MOLAP – Multidimensional OLAP. В ХД этой архитектуры многомерное представление данных реализовано на физическом уровне в виде многомерных кубов данных.

HOLAP – Hybrid OLAP. Гибридные ХД объединяют в себе свойства двух предыдущих архитектур. В эти ХД детализированные данные хранят в реляционных таблицах, а агрегированные данные – в многомерных кубах данных.

В виртуальных хранилищах данных (далее – ВХД) работа ведется с различными источниками, данные из которых собираются во время выполнения запроса без их слияния в едином формате.

Понятие «многомерная модель данных» опирается на концепцию «многомерный куб данных» (OLAP-куб, гиперкуб), представляющую собой                                                              Барсигян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / 2-е издание, переработанное и дополненное / СПб.: БХВ-Петербург, 2007. – 384 с.

Там же, с. 384.

Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – С. 77.

  упорядоченные многомерные массивы данных. В основе этой концепции лежит разделение данных на две группы – измерения и факты. Причем в случае создания ХД на основе реляционных таблиц, данные заносятся в таблицы двух типов: таблица фактов и таблица измерений. А в случае создания ХД в виде многомерных кубов данных используются следующие понятия: показатель, ячейка, измерение, а также член измерения. В свою очередь ключевыми понятиями при построении OLAP-кубов являются: размерность, иерархия, уровень, член и мера.

Но ПБД создавалась для обработки регулярных транзакционных запросов к необобщенным данным без хронологической привязки, поэтому применение к ПБД запросов сформированных с целью поддержки принятия решений очень затруднительно.

В этой связи получила развитие идея создания ХГД, являющегося объединением традиционного ХД и ПБД. ХГД основывается на понятии ХД и дополнительно поддерживает хранение, индексацию, агрегирование и анализ пространственных данных1.

Например, в ГИС обобщение данных происходит двумя способами группировки: объединение объектов по равенству значений определенного атрибута или объектов одной темы в соответствии с их размещением внутри полигональных объектов другой темы2. Также существуют специализированные – исторические ГИС, в которых применяются исторические пространственные данные.

ХГД активно исследовались в прошлом десятилетии. Выделив основные различия пространственного и традиционного ХД, исследователи сконцентрировали на них свою работу. В таблице 1.1 приведены основные темы исследований, разделенные на категории и подкатегории.

                                                             MacEachren A. M., Kraak M.-J. Research challenges in geovisualization. Cartography and Geographic Information Science. – 2001.

Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 2: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.

–  –  –

Концептуальная модель ХГД представляет собой описание основных сущностей и отношений между ними, и является отражением предметной области, планируемого ХГД.

Существующие концептуальные модели ПБД, не подходят для использования их при проектировании ХГД, так как в них отсутствуют такие понятия, как «иерархия», «агрегат», «измерение» и «факт».

Все исследования в данной области были направлены на формулирование общих требований к концептуальной модели, создание пространственной многомерной и пространственно-временной моделей, а также на перенос концептуальной модели в физическую модель.

–  –  –

Bimonte S., Miquel M. Towards a spatial multidimensional model.

Malinowski E., Zimanyi E. Representing spatiality in a conceptual multidimensional model.

Malinowski E., Zimanyi E. Spatial Hierarchies and Topological Relationships in the Spatial MultiDimER model.

  Пространственный факт – любое численное значение измерения, вычисленное с помощью топологических операторов или геометрии, которое может быть агрегировано по иерархиям.

Пространственный факт отношения – это факт отношения, который требует пространственного соединения между двумя или более пространственными измерениями.

Эти же авторы в своей статье «Реализация иерархий пространственного хранилища данных в объектно-реляционных СУБД»1 описывают перенос концептуальной модели MultiDimER в физическую модель. В статье рассматриваются проблемы, возникающие при реализации схем созданных с помощью концептуальных моделей. Пространственный уровень, определенный в модели MultiDimER, является таблицей в базе данных, а отношения между уровнями соответствуют отношениям между таблицами.

Основные требования при проектировании эффективной многомерной модели ХГД описаны в статье Г. Вишванатхан и М. Шнейдер «Требования к пользовательскому складированию пространственных данных и SOLAP»2.

Исследования вопросов хранения данных и организации запросов к ним.

С целью повышения производительности поиска данных в ПБД используют индекс — объект БД. Ускорение работы с использованием индексов достигается в первую очередь за счёт того, что индекс имеет структуру, оптимизированную под поиск.

В случае правильного построения структуры индекса на колонках таблиц измерений и фактов сильно увеличивается производительность запросов, в том числе нерегламентированных, что очень важно в среде ХД.

В ходе исследований, проводимых в отношении структур индексов, применяемых в ХГД, предлагались различные расширения существующих структур индексов, таких как Обобщенные деревья поиска GiST (Generalized Search Trees), R-дерево (R* -дерево и R+ -дерево), B-дерево и т.д.

                                                             Malinowski E., Zimanyi E. Implementing spatial data warehouse hierarchies in object-relation DBMSs.

Viswanathan G., Schneider M. On the requirements for user-centric spatial data warehousing and SOLAP.

  Обобщенное дерево поиска (GiST) является инфраструктурой разработки поисковых деревьев, расширяемой как с точки зрения типа данных, по которым производится поиск, так и с точки зрения поисковых запросов. Индексы GiST разделяют данные на «объекты по одну сторону», «пересекающиеся объекты» и «объекты внутри», что позволяет использовать их для многих типов данных.

Статья Ф. Рао, Л. Занг и Ю. Чен «Пространственная иерархия и поиск, основанный на OLAP, в пространственном хранилище данных»1 описывает расширение индекса GiST.

Определенный в GiST интерфейс, позволяет создать новые разновидности индекса, так как он не зависит от конкретного типа данных и поисковых запросов.

Для расширения GiST предлагается реализация двух интерфейсов – gist и predicate.

Каждый узел дерева состоит из (p, ptr), где p – это предикат запроса, а ptr – указатель на следующий узел. Для нахождения всех узлов, совместимых с предикатом запроса, в GiST используется последовательный алгоритм поиска, для применения в ХГД авторы предлагают новое состояние этого предиката – «неравнодушная истина».

Статья М. Юргенс и Х. Ленз «R*a-дерево: усовершенствованное R*-дерево с материализованными данными для поддержки запросов по областям на OLAP данных»2 описывает расширение R*-дерева (R*a-дерево), с помощью материализованных данных. Эта статья показывает, что хранение агрегатов во внутренних узлах дерева индекса уменьшает время отклика OLAP запросов.

Далее рассмотрен измененный рекурсивный алгоритм запросов на диапазонах, применяющий предварительное вычисление. Результаты данного исследования показывают, что потребность в дополнительном пространстве для хранения агрегированных данных имеет прямую зависимость от размера структуры данных.

                                                             Rao F., Zhang L., Chen Y. Spatial hierarchy and OLAP-favored search in spatial data warehouse.

Jurgens M., Lenz H.-J. The R*a-tree: An improved R*-tree with materialized data for supporting range queries on OLAP

- data.

  Если R*a-дерево хранит агрегаты в индексе, но не выделяет пространственные объекты, то aR-дерево1, основываясь на идее – материализации индекса, расширяет возможность применения R-дерева для ХГД. При создании пространственных данных иерархия не используется, в то время как она требуется для работы OLAP операций. Индекс aR-дерево хранит результаты функций агрегирования на все объекты, попавшие в каждый MBR (Minimum Bounding Rectangles – минимальные ограничивающие прямоугольники).

Преимуществами этого подхода являются:

индекс определяет иерархию среди MBR, которые затем формируют модель решетки куба данных. Это дает возможность для выборочной материализации структуры;

данная идея может быть расширена за счет хранения результатов запросов или других типов операторов агрегирования.

Не смотря на то, что aR-дерево считается эффективной структурой для создания запросов к агрегатам, в случае большого числа измерений ее эффективность существенно снижается. Возникают трудности схожие с последовательным просмотром всех записей БД. М. Горавски и Р. Малкзок в своей статье «Материализованное aR-дерево в распределенном пространственном хранилище данных»2 описывают создание и исследование aR-деревьев для ХГД.

Большинство методов индексации в ХГД основываются на пространственных или временных индексах. Поэтому индексы в пространственно-временных хранилищах данных должны быть созданы на основе интеграции пространственных и временных индексных структур.

Например, агрегат RB-дерево (aRB-дерево) описанный в статье Д. Пападиас и Д. Занг «Индексация пространственно-временного хранилища данных»3, является расширением R-дерева, имеющим указатель на B-дерево, хранящий исторические агрегированные данные о MBR. Данная индексная структура была предложена для представления статических пространственных измерений.

                                                             Papadias D., Kalnis P., Zhang J., Tao Y. Efficient OLAP Operations in Spatial Data Warehouses.

Gorawski M., Malczok R. Materialized aR-Tree in distributed spatial data warehouse.

3 Papadias D., Zhang J. Indexing Spatio-temporal data warehouses.

  Исторический агрегат RB-дерево (aHRB-дерево) объединяет понятия aRBдерево и историческое R-дерево (HR-дерево) для индексирования динамических пространственных измерений. Каждый узел данного дерева хранит определенный отрезок времени. Другая форма записи узла схожа с записями в aRB-дереве.

Каждый раз, когда происходит обновление, новое R-дерево создает метку времени.

Другое предложение по индексации динамических пространственных измерений – это агрегат 3-х мерного RB-дерева (3DRB-дерево). В этом случае формируется одно большое R-дерево для целой истории, в отличие от множества маленьких R-деревьев, создающихся в случае применения aHRB-дерева. Это большое R-дерево хранит различные версии всех областей в одном дереве.

Следующий способ ускорить обработку данных это материализованная индексация или материализованное представление данных. Материализация данных — это объект БД, содержащий предварительно вычисленный результат запроса. Материализованное представление позволяет ускорить выполнение запросов, в случае использования большого количества записей. Это достигается за счет использования заранее вычисленных итоговых данных, а также результирующих таблиц, так как эти данные имеют меньший по сравнению с первичными данными объем.

Одним из вариантов материализованного представления данных является выборочная материализация. Не смотря на то, что выборочная материализация куба данных была подробно изучена, М. Поэсс, Б. Смит, Л. Коллар и П. Ларсон в своей статье «TPC-DS (Decision Support) – новый уровень поддержки принятия решения с помощь контрольных точек»1 предложили ряд методов выбора кубов для материализации. Например, они применяют модель решетки, в узлах которой, с помощью «жадного алгоритма», сформирован ключ выборочной материализации на основе минимального расстояния до объекта.

В качестве решения Н. Стефановик, Д. Хан и К. Коперски в своей статье «Объектно-ориентированная выборочная материализация для эффективной                                                              Poess M., Smith B., Kollar L., Larson P. TPC-DS, taking decision support benchmarking to the next level.

  реализации пространственных кубов данных»1,  предлагают подход с более глубокой степенью детализации куба пространственных данных, т.е.

материализация до уровня клетки куба. Этот подход называется объектноориентированной материализацией и основывается на выборке конкретных пространственных объектов. А выборочная материализация основана на частоте доступа к наборам объединенных пространственных областей. Если ожидается, что эти области будут использоваться чаще других, то проводят их предварительное вычисление.

Рассмотренные выше структуры индексов, содержат материализованные агрегаты пространственных фактов, большая часть из которых является числовыми агрегатами или простыми операциями. В этой связи появилась необходимость изучения структур индексов, содержащих материализованные агрегаты пространственно-временных фактов, например, таких как направление движения.

–  –  –

                                                             Stefanovic N., Han J., Koperski K. Object-Based selective materialization for efficient implementation of spatial data cubes.

–  –  –

                                                             Поляков А.А., Цветков В.Я. Прикладная информатика: учебно-методическое пособие в 2-х частях / Под общ. ред.

Тихонова А.Н. – М.: МАКС Пресс, 2008 – 1 ч.

Gray J., Bosworth A., Layman A., Pirahesh H. Data Cube: a Relational Aggregation Operator Generalizing Group-by, Cross-tabs and Subtotals. – ICDE. – 1996.

–  –  –

                                                             Viswanathan G., Schneider M. BigCube: A MetaModel for managing multidimensional data.

Pedersen B., Tryfona N. Pre aggregation in spatial data warehouses.

  использовать распределенные операции агрегирования. Недостатком этого подхода является возможность его применения только для агрегирования полигонов.

Статья Н. Пелекис, Ю. Теодоридис, С. Возинакис и Т. Панайотопоулос «Hermes – структура для управления данными о местоположении»1 описывает формальную модель геометрического агрегирования. Она определяет три части:

алгебраическую, геометрическую и прикладную (классический OLAP), каждая из которых поддерживает отдельные иерархии и взаимодействует друг с другом. На рисунке 1.2 показан пример этих частей.

–  –  –

Pelekis N., Theodoridis Y., Vosinakis S., Panayiotopoulos T. Hermes – a framework for location-based data management.  Zlatanova S., Stoter J.E., Quak W. Management of multiple representations in spatial DBMSs.

3 Malinowski E., Zimanyi E. Spatial Data Warehouses: Some Solutions and Unresolved Problems.

  во время выполнения SOLAP операций (таких как «свертка» и «развертка»), один и тот же уровень иерархии может иметь различное представление одного объекта.

В статье Н. Стефановик, Д. Хан и К. Коперски «Объектно-ориентированная выборочная материализация для эффективной реализации пространственных кубов данных»1, проблема двойного учета рассматривалась для топологических отношений между пространственными фактами. Решение проблемы неправильного агрегирования авторами предлагалось путем выполнения агрегирования по несвязанным объектам. Для трехмерных объектов эта проблема все равно остается открытой из-за понятия «множественное представление» и топологических отношений между ними.

Исследования в области SOLAP (Spatial On-Line Analytical Processing) пространственной оперативной аналитической обработки данных.

OLAP инструмент – это категория инструментов СППР обеспечивающих доступ к ХД для эффективной обработки данных. Но большинство OLAP инструментов не готовы к анализу как пространственных, так и пространственновременных данных.

В свою очередь ГИС инструменты применяются для анализа пространственных данных, но все еще недостаточно хороши для полнофункционального использования пространственно-временных наборов данных2. В этой связи, появилась необходимость объединения функциональности OLAP и ГИС инструментов. Таким способом можно создать новые инструменты поддержки принятия решений, лучше приспособленные к пространственновременному исследованию и анализу данных. Эти инструменты называют SOLAP системы.

Классические OLAP инструменты поддерживают пространственные данные, но рассматривают пространственное измерение как любое другое, не обращая                                                              Stefanovic N., Han J., Koperski K. Object-Based selective materialization for efficient implementation of spatial data cubes.

Toward better support for spatial decision making: defining the characteristics of spatial on-line analytical processing (SOLAP) // GEOMATICA. – Vol. 55. – No. 4. – 2001. – Р. 539-555.

–  –  –

Bdard, Y., Larrive S., Proulx M.-J., Caron P.-Y., Ltourneau F. Geospatial Data Warehousing: Positionnement technologique et stratgique // Rapport pour le Centre de recherche pour la defense de Valcartier. – 1997.

–  –  –

                                                             Paton N.W., Williams M.H., Dietrich K., Liew O., Dinn A., Patrick A. VESPA: a benchmark for vector spatial databases // BNCOD. – 2000. – Р. 81-101.

–  –  –

В статье «Контрольные точки в пространственном хранилище данных»

приведены контрольные точки называемые – Spadawan (spatial data warehouse benchmark)2.

Данный тип контрольных точек является очень эффективным способом контроля ХГД, поскольку создает наборы данных, состоящие из точек и полигонов, а также поддерживает анализ SOLAP запросов, что позволяет оценить результаты работы запросов, таких как пересечение, ограничение и вложение.

Дальнейшие исследования в этой области проводятся в следующих направлениях:

контрольные точки пространственных данных – линии, полигоны с отверстиями и островами;

контрольные точки создания пространственных данных и обработки SOLAP запросов;

контрольные точки SOLAP запросов для анализа операций развертки с помощью расширенных схем ХГД.

Исследования в области создания пространственно-временных хранилищ данных (далее – ПВХД).

                                                             Pat O'Neil, Betty O'Neil, Xuedong Chen Star Schema Benchmark Revision. – 2009, June 5.

Siqueira T. L., Ciferri R. R., Cesrio V. Benchmarking Spatial Data Warehouses.

  Основной тенденцией в области разработки ХГД является создание и развитие ПВХД. Большинство сфер применения ХД имеет дело с данными, содержащими пространственный компонент (например, адрес местоположения).

Если в ХД этот компонент объединить с временным компонентом (например, дата регистрации события), то потенциал принятия решений на основе таких данных возрастет.

Например, вопрос «Сколько объектов посещало эту область за определенный период времени?» включает в себя и пространственный, и временной компоненты. Для ответа на такой вопрос, находящиеся в ХД пространственные данные должны содержать временную привязку. Это позволит находить в наборе данных скрытые взаимоотношения.

Все ИС, имеющие отношение к сведениям о перемещающихся объектах, применяют пространственно-временное моделирование для анализа этих данных.

Сбор и обобщение всех данных о движении объекта ведет к накоплению огромных наборов данных.

В дополнение к вышесказанному существуют сложности в вопросе временной организации данных. Во временной характеристике географических объектов применяются два понятия времени – Мировое время и Системное время1. Мировое время – это время, когда в действительности происходит изменение объекта, тогда как системное время это время, в которое делается запись об изменении объекта в БД.

В зависимости от требований приложения, пользователи могут использовать или только системное время (в ГИС), или оба времени (в хранилище данных), что усложняет приложение из-за необходимости моделировать оба типа временных измерений в ПВХД.

Хранение данных о траектории движения – это ответвление пространственно-временного складирования данных. Для поддержки данных о траектории используются кубы пространственно-временных данных,                                                              Jizhou W., Chengming L. Research on the framework of spatial-temporal data warehouse.

  позволяющие проводить анализ по временным, пространственным и тематическим измерениям на разных уровнях детализации.

В настоящее время существует ряд инструментов и методов хранения данных о траектории перемещения объектов.

STAU. Это пространственно-временное расширение для объектнореляционной СУБД Oracle10g. Оно создает инфраструктуру управления данными для истории движущихся объектов.

Hermes. Это ядро БД для работы с объектами, которые дискретно или непрерывно во времени меняют местоположение, форму и размеры. Опытный образец был разработан как расширение STAU и поддерживал требования, предъявляемые оперативными динамическими приложениями. Это ядро обеспечивает пространственно-временную функциональность современным объектно-реляционным СУБД.

GeoPKDD (Geographic Privacy-aware Knowledge Discovery and Delivery).

Хранилище данных о траектории – GeoPKSS является проектом, извлекающим знания из большого количества пользовательских необработанных пространственно-временных географических данных1.

Хранение данных о траектории движения – важный шаг для СППР в приложениях связанных с перемещающимися объектами. Вследствие масштабируемости этого типа данных будущие исследования можно сосредоточить на вопросах их моделирования, агрегирования и индексирования.

Будущим исследованием в этом направлении могло бы стать внедрение концепции трехмерных пространственных объектов в ХГД. Трехмерные запросы к ХГД могут быть полезны в сфере городского планирования или ликвидации последствий стихийных бедствий. Топологические отношения для трехмерных объектов могли бы включать такие отношения как «внутри», «взаимодействие с кем-либо».

                                                             Damiani, Vangenot, Frentzos, Marketos, Theodoridis, Veryklos, Raffaeta Geographic privacy aware Knowledge Discovery and Delivery. – 2007.

  В качестве общего вывода можно сказать, что исследования ХГД не потеряли своей актуальности до настоящего времени. Например, исследования в области анализа больших данных (Big Data) содержащих пространственно-временную информацию ведутся с большей интенсивностью ввиду отсутствия сложностей со сбором информации и наличием трудностей в ее обработке.

Одновременно с возрастанием объема накапливаемых данных возрастает потребность в применении метаданных. ХГД можно рассматривать, как часть будущих исследований, учитывая их способность поддержки принятий решений с помощью существенного сжатых данных.

 

1.2. Стандартизация метаданных в геоинформатике В процессах информационного обмена метаданные применяются при каталогизации, учете, статистической обработке и анализе, обеспечивают возможность планирования, быстрого поиска и восстановления данных1. В связи с этим при разработке информационных систем (в том числе ГИС) и создании пространственных данных, метаданным стали уделять больше внимания, как на этапе проектирования (создания), так и на последующих этапах разработки.

Когда говорят о метаданных в контексте геоинформатики, имеют в виду метаданные, используемые для документирования пространственных данных. А определяя термин «метаданные» (metadata) как «данные о данных», многие авторы делают оговорки, что это определение не объясняет сущности термина и не раскрывает общего смысла. Тем более в настоящее время в это понятие включены модели программных систем, и термин «метаданные» используется как эквивалент термина «модель».

В отношении метаданных предпринимаются шаги в двух направлениях — стандартизация представления (согласование и описание метаданных, различных по синтаксису и структуре) и обеспечение поддержки метаданных в информационных системах. Для решения задач стандартизации следует установить правила формирования и представления метаданных в пригодном для обработки и понимания виде, а также однозначного определения продукции (услуги) с необходимым и достаточным уровнем детализации. Вторая задача решается созданием стандартного модуля (программы) создания, редактирования и управления метаданными, встроенного в состав ИС.

                                                             ГОСТ Р 52573-2006 «Географическая информация. Метаданные».

  В данной работе будем пользоваться следующим определением метаданных – это совокупность элементов данных и спецификаций, содержащих описание данных информационной системы и процессов их обработки1.

Для метаданных широкой сферы применения существует ряд стандартов, не связанных с пространственными данными. Знакомство с этими стандартами может оказаться полезным для взаимодействия с ресурсами, не содержащими явных пространственных данных, или для интеграции их в ИПД. Также это может пригодиться при создании баз метаданных ПБД и ХГД.

Одним из первых стандартов в этой области стал CODASYL – язык описания данных для БД с сетевой структурой. За ним следует упомянуть стандарт языка SQL, который содержит понятие информационной схемы (совокупности представлений). Также часть стандарта объектных БД – ODMG, описывающий интерфейсы репозитория объектных схем и стандарт IRDS, позволяющий описывать системы для создания и поддержки справочников информационных ресурсов. Все они сыграли свою роль и легли в основу современных стандартов.

Учитывая большой объем и длительный временной диапазон данных, находящихся в ХД, а так же различие в стандартах разных производителей программного обеспечения возникла необходимость в метаданных и их стандартизации для ХД. В 1998 году ведущие корпорации – поставщики программного обеспечения представили в консорциум OMG (Object Management Group) спецификацию «Обмен общими метаданными хранилища данных»

(Common Warehouse Metadata Interchange, CWMI). Одновременно консорциум MDC (Meta Data Coalition) рассматривал, разработанный Microsoft, стандарт «Открытая информационная модель» (Open Information Model, OIM). После слияния в 2000 году обеих организаций была опубликована первая версия спецификации «Общая метамодель хранилища» (Common Warehouse Metamodel, CWM).

                                                            

Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:

перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.

  Спецификация CWM определяет интерфейсы, используемые для обмена метаданными между хранилищами данных и аналитическими приложениями с помощью инструментальных средств ХД, программно-аппаратных платформ и баз метаданных в распределенных гетерогенных вычислительных средах1.

Спецификация CWM основывается на трех основных стандартах:

стандарт «Унифицированный язык моделирования» (Unified Modeling Language, UML) применяется для объектно-ориентированного моделирования;

стандарт «Средства мета объекта» (Meta Object Facility, MOF) применяется для метамоделирования и создания баз метаданных;

стандарт «XML обмен метаданными» (XML Metadata Interchange, XMI) применяется для обмена метаданными.



Pages:   || 2 | 3 | 4 |
Похожие работы:

«ЖЕЛЕЗНЯКОВ ВЛАДИМИР АНДРЕЕВИЧ Разработка методики геоинформационного обеспечения оперативного обновления электронных карт большого объёма с использованием банка пространственных данных Специальность 25.00.35 – Геоинформатика Диссертация на соискание учёной степени кандидата технических наук Научный руководитель: доктор...»

«Конорев Максим Эдуардович ВИРТУАЛЬНЫЙ ИСТОРИЧЕСКИЙ АРХИВ КАК СРЕДСТВО ИНФОРМАТИЗАЦИИ ИСТОРИЧЕСКОГО ОБРАЗОВАНИЯ ПРИ ПОДГОТОВКЕ БАКАЛАВРОВ В ВУЗЕ 13.00.02 – теория и методика обучения и воспитания (информатизация образования) Диссертация на соискание ученой степени кандидата педагогических наук Научный руководитель: доктор педагогических...»

«УДК 316.32 АБДУЛЛАЕВ Ильхом Заирович «ИНФОРМАТИЗАЦИЯ ОБЩЕСТВЕННО-ПОЛИТИЧЕСКОЙ ЖИЗНИ В УСЛОВИЯХ ГЛОБАЛИЗАЦИИ РАЗВИТИЯ» Специальность – 23.00.04 – Политические проблемы мировых систем и глобального развития Диссертация на соискание ученой степени доктора политических наук Ташкент – 2007 ОГЛАВЛЕНИЕ с. 3 – 15 ВВЕДЕНИЕ Глава 1. Понятийно-категориальные основы теории информационного...»

«Егоров Алексей Юрьевич ФОРМИРОВАНИЕ И РАЗВИТИЕ РЫНКА ОРГАНИЧЕСКОЙ АГРОПРОДОВОЛЬСТВЕННОЙ ПРОДУКЦИИ (НА ПРИМЕРЕ ЦФО) Специальность 08.00.05 Экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями, комплексами – АПК и сельское хозяйство) ДИССЕРТАЦИЯ на соискание ученой степени кандидата экономических наук...»

«Андреева Надежда Михайловна МЕТОДИКА ИСПОЛЬЗОВАНИЯ ДОРОЖНЫХ КАРТ ПРИ ЭЛЕКТРОННОМ ОБУЧЕНИИ СТУДЕНТОВ ИНФОРМАТИКЕ (на примере экономических и биологических направлений подготовки) 13.00.02 – Теория и методика обучения и воспитания (математика, уровень профессионального образования) ДИССЕРТАЦИЯ на соискание учёной степени кандидата...»









 
2016 www.konf.x-pdf.ru - «Бесплатная электронная библиотека - Авторефераты, диссертации, конференции»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.