Для поиска темы - пользуйтесь СИСТЕМОЙ ПОИСКА


Стоимость дипломной работы


Home Материалы для работы Етапи кореляційно-регресійного аналізу

Етапи кореляційно-регресійного аналізу
загрузка...
Рейтинг пользователей: / 0
ХудшийЛучший 

Етапи кореляційно-регресійного аналізу

Процедури, що пов’язані із засвоєнням основ проведення кореляційно-регресійного аналізу будуть зрозумілими якщо виділимо етапи і розглянемо їх у  логічній послідовності. Така послідовність в умовах застосовування Excel 2000 може бути проілюстрована схемою (рис.1.1) [11], що надає можливість уявити повну технологічну схему процесу послідовності етапів кореляційно - регресійного аналізу.
За нульовий етап будемо вважати збір даних.  Треба пам’ятати, що якісним і кількісним показникам значень даних в кореляційно - регресійному аналізі треба приділяти особливу увагу.  Тобто збирання  даних створює засади якості аналізу і особливо коректності прогнозуванню. Тому є низка вимог і правил, яких слід дотримуватиcь при збиранні даних [10].
Перш за все дані повинні бути спостережуваними, тобто отриманими у результаті виміру, а не розрахунку. При цьому, спостереження слід спланувати. Є суперечливі думки стосовно кількості даних  для отримання коректного рівняння. На думку одних експертів даних необхідно в 4-6 разів більше, ніж кількість чинників, вплив яких потрібно відбити у математичному виразі; на думку інших - в 7-8 разів більше числа факторів впливу. Зустрічаються і інші думки які спрямовані у напрямку збільшення кількості даних: "число спостережень повинно бути не менше ніж в 5 - 6, а краще - не менше ніж в 10 разів більше числа чинників, в такому разі на підставі закону великих чисел забезпечується більш ефективне гасіння випадкових відхилень від закономірного характеру зв'язку ознак" [8].
Чим більше неоднакових (які не повторюються) даних, і чим більше вони адаптивні, тим краще рівняння, при умові істотності зв'язків. Підозра щодо не коректних даних може бути спричинена помилками спостережень і помилками експериментів. Наприклад, дані про розміри врожаю мають вирази з двохзначними числами. Якщо було наведено одне п'ятизначне і одне однозначне числа – то для спрощення аналізу такі дані або приводять у відповідність, або відкидають до початку рішення  (вилучають із масиву даних).
Після підготовчого ( нульового) етапу починається їх обробка.
Перший етап організації даних - кореляційний аналіз. Мета такого аналізу - визначити характер зв'язку (пряма, зворотна) і силу зв'язку (зв'язок відсутній, зв'язок слабкий, помірний, помітний, сильний, вельми сильний, повний зв'язок). Кореляційний аналіз створює інформацію про характер і ступінь виразу зв'язку (коефіцієнт кореляції), який використовується для відбору істотних чинників, а також для планування ефективної послідовності розрахунку параметрів регресійних рівнянь. При одному чиннику обчислюють коефіцієнт кореляції, а за наявності декількох чинників будують кореляційну матрицю, з якої з'ясовують два види зв'язків: (1) зв'язки залежної змінної з незалежними, (2) зв'язки між самими незалежними змінними.
Доречним буде тут зауважити, що на практиці найбільш надійними бувають одно- і двохфакторні моделі.
Якщо буде знайдено, що два чинники мають сильний або повний зв'язок між собою, то в регресійне рівняння достатньо буде включити один з них. У побуті це приблизно виглядатиме так: агроном одночасно вислуховує пояснення з одного і того ж приводу двох робітників. Скоріше за все він  скаже: “кажіть по-одинці”. Так на практиці в одне регресійне рівняння не можна одночасно включати змінні типу "кількість працюючих" і "продуктивність праці" як незалежні (оскільки показник продуктивності праці визначають як відношення об’єму виробленої робітниками продукції до кількості робітників) - тут має місце повний зв'язок. Аналогічно будуть пов'язані показники прибутку і витрат, оскільки прибуток є від’ємне значення між витратами і доходами.  Виключення одній з кожної пари вказаних змінних підвищить загальну значимість рівняння; при цьому виключати слід показник, отриманий не на підставі спостережень (виміром), а той що  обчислено. Кваліфіковані дослідники, які обізнані з зв'язками показників, проблеми такого роду усувають ще на етапі збирання і підготовки даних. Якщо ж  у процесі збирання даних була відсутня системність, був відсутнім попередній план, модель у практичному застосуванні може виявитись функціонально обмеженою і  мало надійною.
Другий етап - розрахунок параметрів і побудова регресійних моделей.  На цьому етапі прагнуть відшукати найбільш точну міру виявленого зв'язку, для того, щоб можна було прогнозувати, передбачати значення залежної величини Y, якщо будуть відомі значення незалежних величин X1, Х2 ..., Хn. Цю міру   в узагальненому математичному виразі записують у вигляді  моделі (лінійної множинної регресійной залежності):  ,  де а0 - вільний член (константа, або перетин) і bn- коефіцієнти (коефіцієнти регресії).

Величину Y звуть ще відгуком, а X1, Х2 ..., Хn -  чинниками або предикторами.
Здійснення другого етапу у значній мірі  залежить від висновків, які отримані при аналізі кореляційної матриці. Можна значно прискорити проведення регресійного аналізу і зменшити витрати на дослідження, якщо прийняти правильну стратегію пошуку найкращого рівняння. Для цього необхідно знати основні і найбільш ефективні методи пошуку найкращого рівняння .
Після отримання кожного варіанту рівняння обов'язковою процедурою є оцінка його статистичної значущості, оскільки головна мета - отримати рівняння щонайвищої значущості. В такому випадку другий етап кореляційно-регресійного аналізу  нерозривно пов'язаний із наступним етапом.
Тут слід висловити зауваження. Оскільки розрахунки виконує ЕОМ, а рішення на основі оцінки значущості рівняння приймає користувач (прийняти або відкинути рівняння), умовно можна виділити третій етап цієї людино-машинної технології як інтелектуальний немашинний етап, для якого майже всі дані за оцінкою значущості рівняння готує ЕОМ.
Тобто на третьому етапі з'ясовують статистичну значущість, або придатність моделі для використання її з метою прогнозу значень відгуку. При цьому, приймається до уваги, що програма вже розрахувала за моделлю теоретичні значення для значень залежної величини які спостерігали раніше і обчислила відхилення теоретичних значень від тих, що спостерігались. На основі цього програма створила графіки, у тому числі графік підбірки (він ілюструє, на скільки добре підібрана лінія регресії до даних, що спостерігаються) і графік залишків.     Бажано щоб користувач розглянув ці графіки. В залишках не повинно спостерігатися закономірності, тобто кореляції із якимось значеннями (якщо вона є, то, в модель не включений якийсь з закономірно діючих, але не відомий, прихований чинник, стосовно якого відсутні дані). Для оцінки якості отриманої моделі програма обчислює багато коефіцієнтів, на які також бажано щоб користувач звернув увагу, порівнюючи їх з відомими статистичними критеріями і оцінюючи модель з погляду здорового глузду.
На цьому етапі виключно важливу роль грають коефіцієнт детермінації і F-критерій значущості регресії.
Хоча ми вже писали про ці коефіцієнти варто нагадати, що  коефіцієнт детермінації R2- це квадрат множинного коефіцієнта кореляції між  значенням Y, яке спостерігається і його теоретичним значенням, що обчислено на основі моделі з певним набором чинників. Коефіцієнт детермінації може приймати значення від 0 до 1 і вимірює дійсність моделі. Ця величина особливо корисна у разі порівняння декілька  моделей з метою  вибору найкращої.
R2 є частка варіації прогнозної (теоретичній) величини Y відносно значень Y, що спостерігаються і виникає за рахунок включених в модель чинників.  Вважається добрим, якщо R2 ≥ 80%. Решта частки теоретичних значень Y залежить від інших чинників, що не брали участь в моделі. Задача користувача - знаходити чинники, що збільшують R2 і давати пояснення варіаціям прогнозу, щоб отримати ідеальне рівняння. У разі коли всі значення чинників різні, коефіцієнт R2 може досягти величини 1 (або 100%). Якщо серед даних є спостереження, які повторюються, то величина R2 ніколи не сягатиме 1. Тому дублікати даних слід вилучати з початкової таблиці до початку розрахунку регресії. Деякі програмні пакети автоматично видаляють дублікат, залишаючи лише унікальні дані. Повторення однакових даних знижує надійність оцінок моделі.  R2 = 1 лише при повній згоді експериментальних (спостерігаються) і теоретичних (розраховуються) даних, тобто коли теоретичні значення точно співпадають із тими, що спостерігаються
Засобами регресійного аналізу, у тому числі на основі Excel, обчислюється F-критерій значущості регресії для рівняння в цілому. Це розраховане за  даними, що спостерігаються, значення Fp (F розрахунковий) слід порівнювати з відповідним критичним значенням Fk (F критичний, табличний). Fk вибирають із статистичних таблиць на заданому рівні вірогідності (на тому, на якому обчислювалися параметри моделі, наприклад, 95%). Якщо значення Fр виявиться менше за критичне значення Fк, то рівняння не можна вважати значущим.
Підкреслимо, що у разі якщо розрахункові дані будуть тлумачитися не  коректно електронна технологія кореляційно-регресійного аналізу не може бути корисною. Нехай маємо ... F(10: 20; 0,95)=2,35. Тоді за [3, кн. 1] значення F-відношення, що спостерігається повинно перевершувати 9,4 для того, щоб можна було оцінювати отримане рівняння як задовільну модель для прогнозу.
Ми наводимо цей приклад для того, щоб студент, якщо побажає, міг використовувати хоча б чотирьохкратне посилення критерію значущості рівняння у разі особливо важливих прогнозів.
На четвертому етапі кореляційно - регресійного дослідження, якщо отримана модель статистично значуща, її застосовують для прогнозування, управління або пояснення.
Якщо має місце незначущість, то модель відкидають, припускаючи, що більш придатною буде якась інша форма зв'язку. Наприклад, із самого початку роботи (як би за умовчанням) будувалася і перевірялася лінійна регресійна модель. Незначущість її буде підставою для того, щоб відкинути тільки лінійну форму моделі. Можливо, що більш придатною буде нелінійна форма моделі.


 
загрузка...

Добавить комментарий


Защитный код
Обновить