Для поиска темы - пользуйтесь СИСТЕМОЙ ПОИСКА


Стоимость дипломной работы


Home Материалы для работы Передумови розвитку автоматизованих методів аналізу даних

Передумови розвитку автоматизованих методів аналізу даних
загрузка...
Рейтинг пользователей: / 0
ХудшийЛучший 

Передумови розвитку автоматизованих методів аналізу даних


Існує два способи отримання інформації: документальний і експертний. В першому випадку дані містяться у всіляких інформаційних джерелах (книги, документи, бази даних, інформаційні системи і т.п.). Експертний спосіб припускає витягнення і структуризацію знань з пам'яті людини – експерта, або фахівця в предметній області. Часто їх називають методами, направленими на використання інтуїції і досвіду фахівців.
Серед методів першої групи в економіці поширені методи математичної статистики. Дані методи вирішують великий спектр задач, проте не дозволяють знаходити і витягувати знання з масивів даних. Крім того, високі вимоги до кваліфікації кінцевих користувачів обмежують їх використовування.
Серед другої групи поширені так звані експертні системи, що є спеціальними комп'ютерними програмами, які моделюють міркування людини. Наприклад, експертна система ухвалення рішень на ринку цінних паперів, експертна система оцінки кредитних ризиків і т.п. Висока вартість створення і упровадження експертних систем, нездатність людей знаходити складну і нетривіальну залежність, часто відсутність фахівців, здатних грамотно структурувати свої знання також утруднюють тиражування такого підходу.
Специфіка сучасних вимог до обробки інформації (величезний об'єм даних і їх різнорідна природа) робить безсилими як статистичні, так і експертні підходи в багато яких практичних областях, у тому числі і економічних. Тому для аналізу інформації, накопиченої в сучасних базах даних, методи повинні бути ефективними, тобто простими у використовуванні, володіти значним рівнем маштабованості і певним автоматизмом.
Така концепція лежить в основі двох сучасних технологій Data Mining і Knowledge Discovery in Databases           (KDD) з якими є сенс ознайомитись.
Класичне визначення технології «здобування даних» (Data Mining) звучить таким чином: це виявлення в початкових («сирих») даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань. Тобто інформація, знайдена в процесі застосування методів Data Mining, повинна бути нетривіальною і раніше невідомою. Знання повинні описувати нові зв'язки між властивостями, передбачати значення одних ознак на основі інших.
Виявлення знань в базах даних KDD – це послідовність дій, яку необхідно виконати для побудови моделі (витягнення знання). Ця послідовність не описує конкретний алгоритм або математичний апарат, не залежить від предметної області. Це набір атомарних операцій, комбінуючи які, можна отримати потрібне рішення.
KDD включає етапи підготовки даних, вибору інформативних ознак, очищення даних, застосування методів Data Mining, обробку даних, інтерпретацію отриманих результатів. Основою всього цього процесу є методи Data Mining, що дозволяють знаходити закономірності і знання (рис. 1.1).
Стисло розглянемо послідовність кроків, виконуваних на кожному етапі KDD.
Підготовка початкового набору даних. Цей етап полягає в підготовці набору даних, у тому числі з різних джерел, вибору значущих параметрів і т.д. Для цього повинні існувати розвинуті інструменти доступу до різних джерел даних.
Обробка даних. Для ефективного застосування методів Data Mining слід звернути серйозну увагу на питання обробки даних. Дані можуть містити пропуски, шуми, аномальні значення і т.д. Крім того, дані можуть бути надмірні, недостатні і т.д.
В деяких задачах вимагається доповнити дані деякою апріорною інформацією. Помилково припускати, що якщо подати дані на вхід системи  в  існуючому  вигляді, то  на  виході будуть отримані корисні знання. Вхідні дані повинні бути якісні і коректні.
Трансформація, нормалізація даних. Цей крок необхідний для тих методів, які вимагають, щоб початкові дані були в якомусь певному вигляді. Річ у тому, що різні алгоритми аналізу вимагають спеціальним чином підготовлені дані, наприклад, для прогнозування необхідно перетворити часовий ряд за допомогою дотичного вікна або обчислення показників, що агрегуються. До задач трансформації даних відносяться: дотичне вікно, приведення типів, виділення тимчасових інтервалів, перетворення безперервних значень в дискретні і навпаки, сортування, угрупування і інше.
Data Mining. На цьому кроці застосовуються різні алгоритми для знаходження знань. Це нейроні мережі, дерева рішень, алгоритми кластеризації і встановлення асоціацій і т.д.
Обробка даних після аналізу. Інтерпретація результатів і застосування отриманих знань в бізнес-додатках.
Наприклад, вимагається отримати прогноз об'ємів продажу на наступний місяць. Є мережа магазинів роздрібної торгівлі. Першим кроком буде збір історії продажу в кожному магазині і об'єднання її в загальну вибірку даних. Наступним кроком буде обробка зібраних даних: їх групування по місяцях, згладжування кривої продажу, усунення чинників, що слабо впливають на об'єми продажу. Далі слід побудувати модель залежності об'ємів продажу від вибраних чинників. Це можна зробити за допомогою лінійної регресії або нейроних мереж.
Маючи таку модель, можна отримати прогноз, подавши на вхід моделі історію продажу. Знаючи прогнозне значення, можна його використовувати, наприклад, в додатках оптимізації для кращого розміщення товару на складі.
Найголовніша перевага KDD в том, що отримані у такий спосіб знання можна тиражувати. В такий спосіб побудовану однією людиною модель можуть застосовувати інші, без необхідності розуміння методик, за допомогою якої ці моделі побудовані. Знайдені знання повинні бути використані на нових даних з деякою мірою достовірності.


 
загрузка...

Добавить комментарий


Защитный код
Обновить