Средства добычи знаний в бизнесе и финансах. OLAP-системы

       

Технологии построения информационных хранилищ данных


Согласно классическому определению, информационное хранилище данных - это совокупность программно-аппаратных средств, позволяющих предоставлять данные в целостном виде для последующего анализа и принятия управляющих решений.

Идея, положенная в основу технологии ИХ, состоит в том, что проводить оперативный анализ непосредственно на базе оперативных информационных систем неэффективно. Вместо этого, все необходимые для анализа данные извлекаются из нескольких традиционных баз данных (в основном, реляционных), преобразуются и затем помещаются (или погружаются) в один источник данных - ИХ.

В процессе погружения данные:

  • очищаются - устранение ненужной информации;
  • агрегируются - вычисление сумм, средних;
  • трансформируются - преобразование типов данных, реорганизация структур хранения;
  • объединяются из внешних и внутренних источников – приведение к единым форматам;
  • синхронизируются - соответствие одному моменту времени.

Сегодня, технологии построения ИХ являются основой для построения полноценных OLAP-систем и, соответственно, СППР, ориентированных на решение слабоструктурированных задач принятия решения, поскольку ИХ содержит данные, обладающие следующими свойствами:

  • Целостность и внутренняя взаимосвязь.


Хотя данные погружаются из различных источников, но они объединены едиными законами именования, способами измерения атрибутов и т.д. Это имеет большое значение для корпоративных организаций, в которых одновременно могут эксплуатироваться различные по своей архитектуре вычислительные системы, представляющие одинаковые данные по-разному. Например, могут использоваться несколько различных форматов представления дат, или один и тот же показатель может называться различным образом, например, "вероятность доведения информации" и "вероятность получения информации". В процессе погружения подобные несоответствия устраняются автоматически.

  • Предметная ориентированность.

Локальные базы данных содержат мегабайты информации, абсолютно не нужной для анализа (адреса, почтовые индексы, идентификаторы записей и т.п.).
Подобная информация не заносится в хранилище, что ограничивает спектр, рассматриваемых при принятии решения, данных до минимума.

  • Отсутствие временной привязки.
Оперативные системы охватывают небольшой интервал времени, что достигается за счет периодического архивирования данных. ИХ, напротив, содержит исторические данные, накопленные за большой интервал времени (года, десятилетия).

  • Доступность исключительно для чтения.
Модификация данных не производится, поскольку она может привести к нарушению целостности ИХ. Так как не требуется минимизировать время погружения, то структура хранилища может быть оптимизирована для обработки определенных запросов, что достигается за счет денормализации реляционной схемы, предварительного агрегирования и построения наиболее уместных индексов.

Таким образом, данные, погруженные в ИХ, организуясь в интегрированную целостную структуру, обладающую естественными внутренними связями, приобретают новые свойства, что придаст им статус информации.

Использование технологий ИХ стало возможно благодаря следующим факторам:

  • постепенное осознание руководящим звеном того, что в данных содержится не просто информация, а скрытые закономерности (знания), характеризующие процесс управления в целом, и способные повысить его эффективность;
  • снижение стоимости средств хранения информации дает возможность хранить данные, накопленные за длительные интервалы времени, с высокой степенью детализации;
  • снижение стоимости ЭВТ сложных архитектур;
  • переход от массового обслуживания к индивидуальному. Преобразования в области информационных и компьютерных технологий открыли возможности использования индивидуального подхода в проектировании и разработки систем в зависимости от их предназначения и решаемых задач, т.е. конкретных требований заказчика.
Однако, информационные хранилища данных представляют только перспективную архитектуру построения СИППР масштаба корпоративного предприятия и является центральной ее частью. Для построения полнофункциональной СИППР необходимы специальные программные средства, ориентированные на аналитические технологии обработки данных - технологии интеллектуального анализа данных (ИАД).


Содержание раздела