Для поиска темы - пользуйтесь СИСТЕМОЙ ПОИСКА


Стоимость дипломной работы


Home Материалы для работы Дерева рішень

Дерева рішень
загрузка...
Рейтинг пользователей: / 1
ХудшийЛучший 

Дерева рішень

Не дивлячись на те, що базові концепції цього методу автоматизованого аналізу даних з’явилися в середині XX століття, до цього часу дерева рішень застосовувались набагато рідше, ніж вони того заслуговують. Дерева рішень - це спосіб представлення правил в ієрархічній, послідовній структурі, де кожному об'єкту відповідає єдиний вузол, що дає рішення.
Дерева рішень (decision trees) призначені для вирішення задач класифікації. Іноді використовують інші назви методу - дерева класифікації, дерева вирішальних правил. Вони створюють ієрархічну структуру класифікуючих правил типу «Якщо -То.» (if-then), що має вид дерева. Щоб ухвалити рішення, до якого класу слід віднести деякий об'єкт або ситуацію, вимагається відповісти на питання, що стоять у вузлах цього дерева, починаючи з його кореня. Питання мають вигляд «Значення параметра А більше В?». Якщо відповідь позитивна, здійснюється перехід до правого вузла наступного рівня; потім знову слідує питання, пов'язане з відповідним вузлом і т.д. Наведений приклад ілюструє роботу так званих бінарних дерев рішень, в кожному вузлі яких, галуження проводиться по двох напрямах (тобто на питання, задане у вузлі, є тільки два варіанти відповідей, наприклад «Так» чи «Ні»). Проте, у загальному випадку, відповідей, а отже і віття, що виходить з вузла, може бути більше.
Для побудови дерева, на вхід алгоритму подається деяка навчальна множина, що містить об'єкти (приклади), що характеризуються атрибутами, один з яких вказує на приналежність об'єкту до певного класу. Далі алгоритм намагається виробити загальні критерії для об'єктів одного класу. У тому випадку, якщо навчальна множина містить один або більш прикладів, що відносяться до одного класу, деревом рішень буде лист, визначальний даний клас. Якщо ж навчальна множина містить приклади, що відносяться до різних класів, слід розбити його на деякі підмножини. Для цього вибирається один з атрибутів, що має два і більше відмінних один від одного значень. Після розбиття кожна підмножина буде містити всі приклади, що мають одне із значень для вибраного атрибута. Це процедура буде рекурсивно продовжуватися до тих пір, поки кінцева множина не буде складатися з прикладів, що відносяться до одного і того ж класу.
Серед незаперечних позитивних сторін дерев рішень можливо виділити швидкий процес навчання, витягання правил в областях, де експерту важко формалізувати свої знання, інтуїтивно зрозумілу класифікаційну модель, високу точність класифікації, побудову непараметричних моделей. Через ці і багато які інші причини, дерева рішень є важливим інструментом в роботі кожного фахівця, що займається аналізом даних. На жаль, до цього часу не досліджені ще багато які потенційні області застосування.

Якість побудованого дерева після навчання можна оцінити по декількох параметрах. По-перше, це число розпізнаних прикладів в навчальному і тестовому наборах даних. Чим воно вище, тим якісно побудоване дерево. По-друге, ця кількість вузлів в дереві. При дуже великому їх числі дерево стає важким для сприйняття. Це також означає дуже слабу залежність вихідного поля від вхідних полів. Кожне правило характеризується підтримкою і достовірністю.
Підтримка – це загальна кількість прикладів класифікованих даним вузлом дерева.
Достовірність – це кількість правильно класифікованих даним вузлом прикладів.
Дерево рішень будується за визначеним алгоритмом. Найбільшого розповсюдження отримали алгоритми CART і C4.5(C5.0).
Область застосування дерев рішень в сьогоденні дуже широка. Для спрощення засвоєння матеріалу є сенс усі задачі, що вирішуються цим методом поєднати у три класи.
1. Опис даних. Дерева рішень дозволяють зберігати інформацію про дані в компактній формі. Замість громіздких масивів даних їх можна зберегти у вигляді дерева рішень, яке містить точний опис об'єктів.
2. Класифікація. Дерева рішень відмінно справляються із задачами класифікації, тобто віднесення об'єктів до одного з наперед відомих класів.
3. Регресія. Якщо цільова змінна має безперервні значення, дерева рішень дозволяють встановити залежність цільової змінної від незалежних (вхідних) змінних. Наприклад, до цього класу відносяться задачі чисельного прогнозування (прогнози значень цільової змінної).
Для побудови дерева рішень готується навчальна вибірка. При цьому вихідне поле дерева рішень може бути тільки дискретним..
Для полів, що подаються на входи і вихід дерева рішень, також задається нормалізація. Можливо задати або лінійну нормалізацію, або нормалізацію унікальними значеннями.
Параметри навчання дерева рішень наступні:
- Мінімальна кількість прикладів, при якій буде створений новий вузол. Задається мінімальна кількість прикладів, яка можлива у вузлі. Якщо прикладів, які потрапляють в даний вузол, буде менше заданого - вузол вважається листом (тобто подальше галуження припиняється). Чим більше цей параметр, тим менш гіллястим виходить дерево.
- Будувати дерево з більш достовірними правилами в збиток складності. Включає спеціальний алгоритм, який, ускладнюючи структуру дерева, збільшує достовірність результатів класифікації. При цьому дерево виходить, як правило, більш гіллястим.
- Рівень довіри, що використовується при відсіканні вузлів дерева. Значення цього параметра задається у відсотках і повинне лежати в межах від 0 до 100. Чим більше рівень довіри, тим більш гіллястим виходить дерево, і, відповідно, чим менше рівень довіри, тим більше вузлів буде відсічено при його побудові.
 Якість побудованого дерева після навчання можна оцінити за декількома параметрами. По-перше, це число розпізнаних прикладів в навчальному і тестовому наборах даних. Чим вище це число, тим якісно побудоване дерево. По-друге, ця кількість вузлів в дереві. При дуже великому їх числі дерево стає важким для сприйняття. Це також означає дуже слабу залежність вихідного поля від вхідних полів. Кожне правило характеризується підтримкою і достовірністю.


 
загрузка...

Добавить комментарий


Защитный код
Обновить