Для поиска темы - пользуйтесь СИСТЕМОЙ ПОИСКА


Стоимость дипломной работы


Home Материалы для работы Методи отримання знань

Методи отримання знань
загрузка...
Рейтинг пользователей: / 2
ХудшийЛучший 

Методи отримання знань

Data Mining - це не один, а сукупність великого числа різних методів виявлення знань. Всі задачі, вирішувані методами Data Mining, можна умовно розбити на п'ять класів.
1. Класифікація – віднесення об'єктів (спостережень, подій) до одного з наперед відомих класів. Це робиться за допомогою аналізу вже класифікованих об'єктів і формулювання деякого набору правил.
2. Кластеризація – це угрупування об'єктів (спостережень, подій) на основі даних (властивостей), що описують суть об'єктів. Об'єкти всередині кластера повинні бути «схожими» один на одного і відрізнятися від об'єктів, що увійшли до інших кластерів. Чим більше схожі об'єкти всередині кластера і чим більше відмінностей між кластерами, тим точніше кластеризація. Часто стосовно економічних задач замість кластеризації використовують термін сегментація.
3. Регресія, у тому числі задача прогнозування. Це встановлення залежності безперервних вихідних змінних від вхідних. До цього ж типу задач відноситься прогнозування тимчасового ряду на основі історичних даних.
4. Асоціація – виявлення закономірностей між зв'язаними подіями. Прикладом такої закономірності служить правило, вказуюче, що з події X слідує подія У. Такі правила називаються асоціативними. Вперше це задача була запропонована для знаходження типових шаблонів покупок в супермаркетах, тому іноді її ще називають аналізом ринкової корзини (market basket analysis).
5. Послідовні шаблони – встановлення закономірностей між зв'язаними в часу подіями.
Вкажемо найбільш відомі застосування цих задач в економіці.
Класифікація використовується у випадку, якщо наперед відомі класи віднесення об'єктів. Наприклад, віднесення нового товару до тієї або іншої товарної групи, віднесення клієнта до деякої категорії. При кредитуванні це може бути, наприклад, віднесення клієнта по якихось ознаках до однієї з груп ризику.
Кластеризація може використовуватися для сегментації і побудови профілів клієнтів (покупців). При достатньо великій кількості клієнтів стає важко підходити до кожного індивідуально. Тому клієнтів зручно об'єднати в групи – сегменти з однорідними признаками. Виділяти сегменти клієнтів можливо по декількох групах ознак. Це можуть бути сегменти по сфері діяльності, по географічному розташуванню. Після сегментації можна взнати, які саме сегменти є найбільш активними, які приносять найбільший прибуток, виділити характерні для них ознаки. Ефективність роботи з клієнтами підвищується за рахунок обліку їх персональних переваг.
Регресія використовується для встановлення залежності в чинниках. Наприклад, в задачах прогнозування залежною величиною є об'єми продажу, а чинниками, що впливають на цю величину, можуть бути попередні об'єми продажу, зміна курсу валют, активність конкурентів і т. д. Або, наприклад, при кредитуванні фізичних осіб вірогідність повернення кредиту залежить від характеристик людини, сфери його діяльності, наявності майна.
Асоціації допомагають виявляти товари, що спільно придбавалися. Це може бути корисно для більш зручного розміщення товару на прилавках, стимулювання продажу. Тоді людина, що купила пачку спагеті, не забуде купити до них пляшку соусу.
Послідовні шаблони можуть бути використані при плануванні продажу або наданні послуг. Приклад послідовного шаблона: якщо людина набула фотоплівку, то через тиждень вона віддасть її на прояв і замовить друк фотографій.
Для вирішення вищеперелічених задач викорис-товуються різні методи і алгоритми Data Mining. З огляду на те, що Data Mining розвивався і розвивається на стику таких дисциплін, як математика, статистика, теорія інформації, машинне навчання, теорія баз даних, цілком закономірно, що більшість алгоритмів і методів Data Mining були розроблені на основі різних
методів з цих дисциплін.
В загальному випадку, не принципово, яким саме алгоритмом буде розв'язуватися одна з п'яти задач Data Mining – головне мати метод рішення для кожного класу задач.
На сьогодні найбільше розповсюдження отримали самонавчальні методи і машинне навчання. Розглянемо найбільш відомі алгоритми і методи, що застосовуються для вирішення кожної задачі Data Mining.


 
загрузка...

Добавить комментарий


Защитный код
Обновить