Технологии построения информационных хранилищ данных
Согласно классическому определению, информационное хранилище данных - это совокупность программно-аппаратных средств, позволяющих предоставлять данные в целостном виде для последующего анализа и принятия управляющих решений.
Идея, положенная в основу технологии ИХ, состоит в том, что проводить оперативный анализ непосредственно на базе оперативных информационных систем неэффективно. Вместо этого, все необходимые для анализа данные извлекаются из нескольких традиционных баз данных (в основном, реляционных), преобразуются и затем помещаются (или погружаются) в один источник данных - ИХ.
В процессе погружения данные:
- очищаются - устранение ненужной информации;
- агрегируются - вычисление сумм, средних;
- трансформируются - преобразование типов данных, реорганизация структур хранения;
- объединяются из внешних и внутренних источников – приведение к единым форматам;
- синхронизируются - соответствие одному моменту времени.
Сегодня, технологии построения ИХ являются основой для построения полноценных OLAP-систем и, соответственно, СППР, ориентированных на решение слабоструктурированных задач принятия решения, поскольку ИХ содержит данные, обладающие следующими свойствами:
- Целостность и внутренняя взаимосвязь.
Хотя данные погружаются из различных источников, но они объединены едиными законами именования, способами измерения атрибутов и т.д. Это имеет большое значение для корпоративных организаций, в которых одновременно могут эксплуатироваться различные по своей архитектуре вычислительные системы, представляющие одинаковые данные по-разному. Например, могут использоваться несколько различных форматов представления дат, или один и тот же показатель может называться различным образом, например, "вероятность доведения информации" и "вероятность получения информации". В процессе погружения подобные несоответствия устраняются автоматически.
- Предметная ориентированность.
Локальные базы данных содержат мегабайты информации, абсолютно не нужной для анализа (адреса, почтовые индексы, идентификаторы записей и т.п.).
Подобная информация не заносится в хранилище, что ограничивает спектр, рассматриваемых при принятии решения, данных до минимума.
- Отсутствие временной привязки.
- Доступность исключительно для чтения.
Таким образом, данные, погруженные в ИХ, организуясь в интегрированную целостную структуру, обладающую естественными внутренними связями, приобретают новые свойства, что придаст им статус информации.
Использование технологий ИХ стало возможно благодаря следующим факторам:
- постепенное осознание руководящим звеном того, что в данных содержится не просто информация, а скрытые закономерности (знания), характеризующие процесс управления в целом, и способные повысить его эффективность;
- снижение стоимости средств хранения информации дает возможность хранить данные, накопленные за длительные интервалы времени, с высокой степенью детализации;
- снижение стоимости ЭВТ сложных архитектур;
- переход от массового обслуживания к индивидуальному. Преобразования в области информационных и компьютерных технологий открыли возможности использования индивидуального подхода в проектировании и разработки систем в зависимости от их предназначения и решаемых задач, т.е. конкретных требований заказчика.