Для поиска темы - пользуйтесь СИСТЕМОЙ ПОИСКА


Стоимость дипломной работы


Home Материалы для работы Приклади вирішення задачі методами Data Mining

Приклади вирішення задачі методами Data Mining
загрузка...
Рейтинг пользователей: / 0
ХудшийЛучший 

Приклади вирішення задачі методами Data Mining

Спектр задач, вирішуваних методами Data Mining в економіці, дуже широкий: торгівля, логістика, банківське кредитування, страхування, аналіз анкет і багато які інші.
Роздрібна і оптова торгівля – одна з популярних областей застосування. Торгівля характеризується великим об'ємом операцій, великою кількістю клієнтів, і, частіше всього, розподіленим характером зберігання даних. Високий рівень конкуренції вимушує компанії надавати особливу увагу питанням лояльності клієнтів і враховувати особливості поведінки різних категорій споживачів. Список задач, що вимагають рішення, досить широкий: підвищення оборотності, зниження витрат, оптимізація складських запасів, зменшення ризиків і інше. І через деякий час після автоматизації торгового підприємства неминуче встає питання, що робити з величезним потоком інформації, що накопичуються в базах даних.
Об'єднання концепції сховищ даних, OLAP і KDD дозволяє вирішити в торгівлі ряд ключових задач, які забезпечують комплексне інформаційно-аналітичне забезпечення організації для ухвалення стратегічних рішень: консолідація даних, регулярна звітність, обробка нерегламентованих запитів, прогнозування продажу і сегментація.
Консолідація даних має на увазі створення і наповнення сховища даних, що дозволяє організувати централізоване зберігання даних, що поступають з різних джерел, наприклад, з декількох торгових підрозділів.
Регулярна звітність забезпечує доступ до простої аналітики: суми продажу по періодах в розрізі міст і філіалів, завантаженість торгових відділів, рейтинг популярних товарів і т.п.
Механізм нерегламентованих запитів дозволяє одержувати відповіді на сформульовані «на льоту» питання, наприклад: «Скільки отримали певного товару за минулий місяць в магазинах, що розташовані в центрі міста». Наявність підготовленого сховища даних і OLAP механізмів дозволяє швидко одержувати відповідь і проглянути результати за допомогою крос-таблиці.
Сегментація. Тут можна виділити три основної задачі сегментації в торгівлі.
1. Сегментація клієнтської бази - необхідна для того, щоб враховувати персональні переваги кожного клієнта. Коли компанія пропонує масовий товар, то велика кількість споживачів не дозволяє врахувати індивідуальні особливості, не підвищивши при цьому вартість обслуговування. Найбільш оптимальною в даному випадку є політика, при якій клієнти розбиваються на групи достатньо близьких по поведінці людей, і кожній такій групі пропонується свій набір продуктів і послуг. Така сегментація дозволяє максимально врахувати потреби клієнтів, не збільшуючи вартість обслуговування.
2. Сегментація мережі торгових відділів. Припустимо, при відкритті нового магазина цікавить зразкова середня кількість покупців, які будуть його відвідувати. Маючи розділення на сегменти існуючих магазинів (ознаками для розділення можуть бути: торгова площа, кількість вітрин і т.д.), алгоритм Data Mining віднесе новий торговий відділ до одного з відомих сегментів, що зрештою дозволить передбачити її майбутню активність.
3. Сегментація товарної продукції необхідна для побудови прогнозу продажу по групах товарів. Це актуально, коли номенклатура товарної продукції характеризується частою зміною модельного ряду з схожими функціональними характеристиками.
Прогнозування продажу - одна з найбільш актуальних задач в торгівлі. Наявність прогнозу дозволяє проводити закупівлі в потрібному об'ємі і в потрібний час. Завдяки цьому збільшується задоволеність клієнтів, збільшується оборотність товарів, знижуються вимоги до розміру складських приміщень, зменшуються ризики утворення нерозпроданих товарів.
Умовно номенклатуру товарної продукції можна розділити на два типи.
Тип 1. Характерною межею товарів першого типу є:
- Групи товарів мають схожі споживацькі властивості і функціональні характеристики;
- Модельний ряд продукції, що часто обновлюється.
Це більшість продукції для масового споживання – побутова техніка, портативна і комп'ютерна техніка, продукти харчування, канцелярські товари і т.д. При побудові прогнозу для кожної номенклатурній одиниці продукції даного типу буде враховуватися динаміка, властива саме конкретній моделі (наприклад, моделі монітора): спад рівня продажу, якщо це стара модель, або збільшення – якщо це перспективна новинка, але ніяким чином не буде враховуватися загальна тенденція по товарах однакової функціональності. Тому для побудови ефективного прогнозу необхідно враховувати динаміку не по конкретним номенклатурним одиницям продукції, а саме по групах товарів з однорідними властивостями. Наприклад, телефони, плеєри, пральні машини і т.д. Для цього застосовується інструмент Data Mining - сегментація.
Тип 2. Кожний товар в своїй групі має унікальні, специфічні характеристики і споживацькі властивості, і їх оновлення проводиться рідко. Як правило, це спеціалізована продукція, часто напряму пов'язана з технологією, що використовується покупцем: зразки сталей, дерева, скла і т.д. Об'єднувати в групи такі товари іноді неприпустимо. Наприклад, продукція ДВП, яка відмінна забарвленням. Попиту на кожний колір властива сезонність – так, взимку виникає попит на світлі відтінки, на початку літа і осені - строгі кольори і т.д.
Відповідно методика побудови моделі прогнозування продажу є різною для кожного типу продукції. Для першого типу вона має складніший вигляд.
Розглянемо приклад створення невеликого закінченого аналітичного рішення для побудови моделі прогнозу продажу. При побудові моделі використані три методи Data Mining - кластеризація, класифікація і регресія, а також механізми аналітичної звітності і багатовимірного уявлення.
Компанія займається реалізацією широкого асортименту портативної техніки – телефонів, плеєрів, цифрових фотокамер і ін. Повна номенклатура пропонованої споживачу продукції складає більше 1000 моделей. Продаж техніки здійснюється в мережі магазинів і торгових точок, розташованих в різних районах міста. Історія продажу нагромаджується в обліковій системі, що використовується в компанії. Ставиться задача побудови прогнозу вперед на заданий майбутній період (в даному випадку - тиждень) в цілому в компанії і в кожній торговій точці по кожній товарній позиції.
Отже, маємо типову задачу: спрогнозувати продаж в компанії з розгалуженою торговою мережею і відносно великим асортиментом пропонованої продукції. Як варіант – компанія може не мати мережі торгових підрозділів (оптовий постачальник), або асортимент пропонованої продукції невеликий. Загальний алгоритм рішення задачі прогнозування продажу від цього не залежить – просто додасться або ліквідується частина етапів моделювання.
Оскільки, у даному прикладі реалізовані групи товарів володіють схожою функціональністю і частою зміною модельного ряду, тобто відносяться до першого типу, то прогноз буде будуватися в чотири етапи .
1. Об'єднання товарів з однорідними споживацькими ознаками в групи (сегментація).
2. Сегментація торгових відділів з однаковими ознаками, оскільки присутня значна кількість торгових точок. Прогноз продажу буде виконуватися не по окремих магазинах, а по групі торгових точок зі схожими характеристиками. Таким чином, при прогнозуванні тенденції по групі, факт закриття окремих торгових відділів або відкриття нових не зробить помітного впливу. По графіку сумарного об'єму продажу можна виділити сегменти, що приносять найбільший і найменший прибуток.
3. Прогнозування об'ємів продажу груп товарів, належних виявленим сегментам.
4. Розподіл прогнозних значень по торгових точках і окремих товарах в сегментах.
Сегментація товарів. Перед першим кроком всі дані, необхідні для аналізу, були систематизовані і внесені в сховище даних. Товари були розділені на групи: стільникові телефони, радіотелефони стандарту DECT, радіотелефони частоти 30-40МГц, дротяні телефони, цифрові фотоапарати, дискові плеєри
і т.д. Далі всередині кожної групи йшла сегментація – об'єднувалися моделі з схожою функціональністю.
Часто сегментацію простіше всього провести по якомусь одному, максимум по двом, ознакам. Це може бути розподіл по виробнику, або за ціною, або по виробнику і ціні. Зробити це не складає труднощів досвідченому експерту, особливо, якщо даний модельний ряд в товарній групі не дуже великій, скажімо, до 50 моделей. Наприклад, цифрові фотокамери одного цінового діапазону мало чим відрізняються по функціональності. Серед них прийнято виділяти любительські, напівпрофесійні і професійні фотокамери, що розрізняються головним чином ціною. Це можна узяти за основу для сегментації продукції даної групи.
В деяких випадках простою експертною сегментацією не обійтися.
Наприклад, в даному прикладі модельний ряд групи «Радіотелефони стандарту DECT» налічував трохи більше 160 моделей 11 виробників, кожна з яких має 12 важливих функціональних властивостей, що відрізняють її від інших:
- ціна апарату;
- функція Walkie-Talkie;
- наявність АОН;
- наявність автовідповідача;
- будильник;
- гучний зв'язок;
- можливість кріплення на стіну;
- наявність русифікованого меню;
- об'єм вбудованого записника;
- підсвічування;
- розширення трубок (баз);
- індикація дати і часу.
Тому в даному випадку сегментацію по одному-двом ознакам провести не просто, необхідне застосування методів Data Mining, або їх комбінування з експертним підходом.
Для цього скористаємося спеціальним інструментом сегментації – картами Кохонена. Логічно припустити, що по ціновому чиннику будь-яка продукція завжди розбивається на 3 класи – сектор недорогих моделей, моделі середнього цінового діапазону і дорогі (представницькі) моделі. Тому кількість кластерів буде не менше трьох. Оскільки у нас є ще декілька важливих ознак з функціональної точки зору, то число кластерів логічно задати із запасом, наприклад, 4. Побудована карта, що самоорганізовується, виглядає наступним чином (мал. 1.10).
Щоб зрозуміти, за якими правилами побудована модель розділяє телефони на класи, слід скористатися ще одним інструментом Data Mining - класифікаційними деревами рішень. Входи моделі залишаться колишніми, як в карті, що самоорганізовується, і додасться вихід - номер кластера. Побудоване дерево рішень витягнуло 4 правила - поодинці на кожний сегмент телефонів (табл. 1.4).
Як видно з табл. 1.4, модель «дерево рішень» видалила не важливі функціональні ознаки телефонів, залишивши наступні: гучний зв'язок, будильник, підсвічування, можливість розширення трубок (баз). Ціновий чинник при розділенні на сегменти ніяк не ураховувався – в кожному сегменті (окрім сегмента 0) присутні як недорогі моделі радіотелефонів, так і апарати представницького класу, володіючих, не дивлячись на відмінність в ціні, однаковою функціональністю. Інакше кажучи, основні функціональні ознаки телефону практично не пов'язані з ціною. Але оскільки попит на дешеві і дорогі телефони різний, додатково розділимо 1,2, і 3 сегмент ще на 2, по ціновій ознаці.
В перший «додатковий» сегмент ввійдуть моделі телефонів з ціною, нижче середньої ціни по сегменту, в другий – інші. У результаті отримаємо 7 сегментів 

Ще раз скористаємося інструментом кластеризації – картами, що самоорганізовуються. В сегментації беруть участь 130 торгових відділів і магазинів. Для кожної з них відомі наступні характеристики.
1. Канал дистрибуції, або канал розповсюдження. В роздрібній мережі компанії експертами було виділено три типи таких каналів. Тип 1 – торгові точки, розташовані на спеціалізованих ринках продажу електроніки. Тип 2 – відділи продажу, розташовані в середніх і великих торгових центрах міста. Тип 3 - салони-магазини, розташовані на вулицях міста.
2. Лінійне викладення – це деякий показник місткості вітрин, встановлених у торговому відділі. Він залежить від кількості вітрин. Оскільки вітрини існують різні, то даний показник більш інформативний.
3. Торгова площа.
При проведенні сегментації знову виникає питання: скільки кластерів (тобто сегментів) слід задати? В даному випадку була висунута гіпотеза про те, що в кожному каналі дистрибуції повинні існувати торгові відділи з малими, середніми і великими торговими площами і лінійного викладення. Таким чином, вірогідна кількість сегментів лежить в діапазоні від 7 до 9. Найбільш вдала сегментація вийшла при 8 сегментах - 7 з 8 кластерів групувалися по однаковому каналу дистрибуції

Побудована модель сегментації демонструє пряму залежність між торговою площею і лінійним викладенням – чим більше площа, тим більше вітрин можна на ній розмістити. По картах на рис.1.11 відносно легко інтерпретувати результати.
Сегменти 0 і 3 - торгові точки, що володіють максимальними характеристиками – великою торговою площею і лінійним викладенням. Це видно з аналізу перших двох карт, що самоорганізовуються, – високим і вище середніх значенням відповідають відтінки кольорів від яскраво-зеленого до червоного. Дані сегменти невеликі – менше 10% від всіх торгових точок. Канал дистрибуції значення не має.
Сегменти 1, 4 і 5 – це торгові точки з середніми і трохи нижче середніх значеннями торгової площі і лінійного викладення. Такі сегменти виявилися для кожного типу каналу дистрибуції. В них потрапила 1/3 від всіх відділів.
Нарешті, в сегменти 2, 6, 7 ввійшли торгові точки з малою торговою площею, і, відповідно, низьким значенням лінійного викладення. Такі точки також присутні в кожному каналі дистрибуції. Це найбільш велика група сегментів, в яку ввійшли 60% розповсюдження від всіх магазинів мережі.
Майже завжди після сегментації можна провести додатковий аналіз – прибутковість кожного сегмента. Для цього необхідні дані з продажу в розрізі торгових точок, по яких будується діаграма розподілу продажу

Аналіз діаграми показує, що в торгових точках з малою торговою площею і низьким значенням лінійного викладення (сегменти 2, 6, 7) середні рівні продажу нижче, ніж в інших точках. Це очевидний висновок. Більш інформативний аналіз відносних продаж, тобто продажу з розрахунку на який-небудь параметр, наприклад, квадратний метр торгової площі
Такий аналіз показує, що торгові точки з малою торговою площею працюють ефективніше по відношенню до метражу торгової площі, що може бути враховано при відкритті нових магазинів.


 
загрузка...

Добавить комментарий


Защитный код
Обновить