Для поиска темы - пользуйтесь СИСТЕМОЙ ПОИСКА


Стоимость дипломной работы


Home Материалы для работы Завантаження Сховища

Завантаження Сховища
загрузка...
Рейтинг пользователей: / 0
ХудшийЛучший 

Завантаження Сховища

Які дані повинні бути поміщені в Сховищі? Як знайти і витягнути ці дані? Як забезпечити коректність даних в Сховищі? Подібні питання є ключовими при проектуванні Сховищ. По суті, визначаючи, чим заповнюється Сховище, ми неявно визначаємо спектр задач, які будуть розв'язуватися з його допомогою, і коло потенційних користувачів.
При описі технології заповнення Сховища будемо розрізняти три взаємозв'язані задачі: Збір Даних (Data Acquisition), Очищення Даних (Data Cleansing) і Агрегацію Даних (Data Consolidation).
Під Збором Даних будемо розуміти процес, який полягає в організації передачі даних із зовнішніх джерел у Сховищі. Лише деякі аспекти цього процесу повністю або частково автоматизовані в наявних продуктах. Перш за все, це відноситься до інтерфейсів з існуючими БД.
Як правило, тут є декілька можливостей. По-перше, підтримуються інтерфейси всіх великих виробників серверів баз даних (Oracle, InterBase, Informix, ADABAS і т. д.). По-друге, практично завжди є Odbc-інтерфейс, і, по-третє, можна витягувати дані з текстових файлів у форматі CSV (comma separated values) і з деяких структурованих файлів, наприклад файлів dBase. Набір наявних інтерфейсів - найважливіша характеристика, яка часто дозволяє оцінити, для яких задач проектувався продукт. Так, якщо серед підтримуваних інтерфейсів є AS/400, DB2/400, IMS, VSAM (як в популярному продукті PASSPORT фірми Carleton), то він призначений швидше для використовування в системах, що працюють на великих мейнфреймах, ніж в мережі з ПК. Дещо інший набір інтерфейсів пропонує, наприклад, добре відомий продукт InfoPump фірми PLATINUM Technology, який забезпечує підтримку Lotus Notes, Microsoft Access, dBase і роботу з текстовими файлами. Великі виробники серверів або мають власні засоби збору даних або встановлюють партнерські відносини з виробниками таких засобів і розробляють інструментарій проміжного рівня для тиражування "не своїх" даних (такий, наприклад, Replication Server фірми Sybase).
 Другий аспект процесу збору даних, який автоматизований в деяких продуктах, - це організація процесу поповнення Сховища. В тому ж InfoPump, наприклад, є можливість будувати розклад поповнення Сховища даними або на тимчасовій основі, або з використанням механізму подій. Є і складніші програмні комбінації, наприклад корпорація Software AG розробила власне рішення для збору і очищення даних, зване, SourcePoint, яке на нижньому рівні використовує PASSPORT, а функції організації розкладів реалізує як надбудову над цим нижнім рівнем. Крім цього SourcePoint реалізує паралельні витягання, передачу даних і заповнення Сховища.
 Під очищенням даних звичайно розуміється процес модифікації даних по мірі заповнення Сховища: виключення небажаних дублікатів, відновлення пропущених даних, приведення даних до єдиного формату, видалення небажаних символів (наприклад, керівників) і уніфікація типів даних, перевірка на цілісність. Практично всі продукти мають в своєму розпорядженні той або інший набір засобів очищення даних і відповідні засоби діагностики.
 При заповненні Сховища агрегованими даними ми повинні забезпечити вибірку даних з бази даних транзакції і інших джерел відповідно до метаданих, оскільки агрегація відбувається в термінах бізнес-понять. Так, наприклад, агрегована величина "об'єм продажу продукту Х в регіоні У за останній квартал містить поняття "продукт" і "регіон", які є бізнес-поняттями даного підприємства. Слід підкреслити, що задача вибірки необхідних даних не може бути вирішена повністю автоматично: можливі колізії (відсутність необхідних даних, помилки в даних і т. п.), тоді втручання людини виявляється необхідним. Далі, припускаючи, що об'єктом аналізу є числові показники, пов'язані з бізнес-поняттями, такі як ОБ'ЄМ ПРОДАЖУ або ПРИБУТОК, необхідно визначити правила обчислення цих показників для складових бізнес-понять, виходячи з їх значень для більш простих бізнес-понять. Це і є правила агрегації.
 Найпростішою архітектурою системи на основі СД є архітектура клієнт-сервер. Традиційно саме сховище розміщується на сервері (або на серверах), а аналіз даних виконується на клієнтах. Деяке ускладнення в цю схему вносять Вітрини Даних. Вони також розміщуються на серверах, але, ураховуючи взаємодії між Вітринами, доводиться вводити так звані перехідники (Hub Servers), через які йде обмін даними між Вітринами.


 
загрузка...

Добавить комментарий


Защитный код
Обновить