Для поиска темы - пользуйтесь СИСТЕМОЙ ПОИСКА


Стоимость дипломной работы


Home Материалы для работы Теоретичні аспекти, технології і умови застосування кореляційно-регресійного аналізу

Теоретичні аспекти, технології і умови застосування кореляційно-регресійного аналізу
загрузка...
Рейтинг пользователей: / 0
ХудшийЛучший 

Теоретичні аспекти, технології і умови застосування кореляційно-регресійного аналізу

За мету написання цього розділу була прийнята необхідність ознайомлення і придбання навичок студентами аграрних навчальних закладів і працівниками  сфери сільськогосподарського виробництва   застосовування сучасного,  зручного інструментарію для проведення аналізу стану агросистем і агро-бізнес-проектів математично-статистичними методами (зокрема кореляційно – регресійного) на основі застосування офісних генераторів. З множини інструментальних засобів нами обрано найбільш поширений і зручний (на нашу думку) у практичному використані метод електронних таблиць реалізований в офісному генераторі - Excel 2000.  
Інформаційні потоки, що обертаються у сфері сільськогосподарського виробництва і на основі яких реалізуються функції прогнозування, планування і управління з точки зору їх організації   вважаються специфічними, для яких характерні наявні і неявні, кількісні і евристичні показники, структуровані, погано структуровані і не структуровані форми. Поєднує їх і робить придатними для обраного методу аналізу  те, що набори даних про стан об’єкту або процесу можна представити у табличному вигляді. 
Оскільки в основу кореляційно-регресійних методів аналізу покладено аналіз зв’язків показників стану об’єктів, процесів і систем є потреба визначитись з деякими поняттями. В аграрних системах як складних і специфічних чітко виражена наявність тісно пов’язаних процесов і дій, не тісно і повна відсутність зв’язків. Звідси, присутність наявних відносин між показниками, неявних і відсутність взаємовідносин.  Під явно зв'язаними показниками будемо розуміти такі, які отримані методами прямого рахунку, тобто обчислені за  формулами, що наперед відомі. Наприклад, відсотки виконання програми технологічних дій, показники рентабельності, питома вага зовнішнього і внутрішнього фактору впливу, відхилення у загальному об’ємі, відхилення у відсотках, темпи зростання  врожаю, темпи приросту біомаси, індекси співвідношень і т.інш.
Зв'язки неявні наперед невідомі. Проте, агроному (агроменеджеру)  важливо вміти пояснювати і передбачати (прогнозувати) складні явища для того, щоб управляти агропроцесами і бізнес-ситуаціями на ринку реалізації своєї продукції. У такому випадку необхідним є виявлення прихованої залежності і виразу таких зв’язків у формальному вигляді. Формалізми можуть представлятись символьними або логіко-ієрархічними виразами в залежності від типу інформації і методу її організації. Тобто, щоб приймати ефективні рішення і управляти об’єктом або процесом  в межах сучасних вимог, його краще уявити у вигляді математичної моделі.
Окремо підкреслимо, що в узагальнено - прикладному уявленні математичні моделі  використовують в напрямку  прояснення і пояснення ситуації, із метою  прогнозування і для управління. В цьому сенсі   кореляційно-регресійний аналіз надає таку можливість  у формі сприятливій для розуміння і практичного застосування.
Також зауважимо, що в сучасних умовах необхідності економіко-виробничого аналізу представлення даних агрономічних і інших спостережень  в електронних таблицях типу Еxcel стало природним, тому поширеним і спрощеним. Завдяки оснащенню електронних таблиць засобами кореляційно-регресійного аналізу він із групи методів які вважалися складними, суто науковими  і тому не поширеними,  перетворився для фахівця-практика у повсякденний, ефективний і оперативний аналітичний інструмент. Однак додамо, що для його успішного застосування від користувача вимагається деяка визначена кількість  знань і  незначні зусилля, що можуть бути трішки більшими ніж засвоєння простих електронних розрахункових таблиць.
Перш за все метод кореляційно-регресійного аналізу, надає можливість користувачу на підставі коефіцієнту кореляції виміряти тісноту зв'язків показників. При цьому, як вже було помічено, виявляються зв'язки сильні, слабкі, помірні і різні за напрямком (прямі, зворотні). Якщо зв'язки виявляться істотними, то доцільно буде знайти їх математичний вираз у вигляді регресійної моделі і оцінити статистичну значущість моделі.
Загально прийнято, якщо мова йде про дослідження систем, то починають процес з специфікації моделі, тобто,  спираючись на відповідну теорію зв’язку між змінними  формують її вид. Наприклад, в агросистемах математичні рівняння зручно використовувати для прогнозування стану культур, процесу отримання врожаю, економічних параметрів функціонування об’єкту. При цьому для проведення коректного аналізу потрібно знати всю сукупність зв’язків між змінними агросистем.
Регресійний аналіз в цьому сенсі вважають основним методом сучасної математичної статистики для виявлення неявних і завуальованих зв'язків між даними польових і лабораторних спостережень. Електронні таблиці роблять такий аналіз цілком приступним і ефективним.
Із безлічі видів кореляційно-регресійного аналізу ми розглянемо такі,   що
використовуються  як інструмент пізнання дійсності. При цьому передбачається, що студент має необхідні для засвоєння методу знання із теоретичних основ кореляційно-регресійного аналізу, що надаються спеціальними учбовими дисциплінами. Однак не  буде зайвим, якщо ми у спрощеному варіанті нагадаємо деякі з основних положень цього аналізу.
Перш за все визначимось: кореляційно-регресійний аналіз – це метод статистичного аналізу, що дозволяє дослідити кількісні взаємозв’язки між двома і більше випадковими змінними в умовах деяких відповідних передбачень [2]. Тобто методи кореляційного і регресійного аналізу створювались як методи описування сумісних дій двох і більше змінних.
Вихідними даними для кореляційно-регресійного аналізу є числові значення ознак об’єктів, що створюють вибірку з деякої генеральної сукупності. При цьому одна із ознак є результативною (залежною), інші – факторні (незалежні).
Аналіз зв’язку між однією результативною і однією факторною ознакою називають простим (парним) кореляційно-регресійним , а аналіз зв’язку між результативною ознакою і декількома факторними ознаками – множинним кореляційно-регресійним [4,5].
Зв’язки між результативними і факторними ознаками описуються математичними моделями, які називають функціями (моделями, рівняннями) регресії. Прийнято, що в цих моделях змінна (результативна ознака) означена У, а незалежна (факторна) змінна – Х з порядковим індексним номером. До моделі регресії входять також  літери-параметри, що є вільними членами, коефіцієнти, показники і основа ступеня.
У всіх випадках основними задачами кореляційно-регресійного аналізу вважаються:
1) отримання найкращих числових оцінок невідомих параметрів регресії;      
2) перевірка статистичних гіпотез відносно цих параметрів;
3) перевірка адекватності обраної моделі регресії і множини відповідних припущень.
Підкреслимо, що кореляційно-регресійний  аналіз надає змоги відповісти лише на одне запитання: чи суперечать вхідні дані прийнятої моделі регресії і іншім передумовам аналізу?.
Необхідність застосування кореляційно-регресійного аналізу може бути обумовлена тим, що:
1) визначенню залежності між змінними, що аналізуються  сприяє наявність можливого причинного зв’язку;
2) пророкування значень залежної змінної за  значеннями незалежних змінних особливо важливо коли безпосередні виміри залежної змінної потребують знищення досліджуваного об’єкту або коштують невиправдано дорого.
Алгоритм кореляційно-регресійного аналізу складний і багато етапний. Тому якщо вхідних даних забагато, краще використовувати ЕОМ [10]. Знайомству з цією технологією ми і присвятимо дану частину посібника.
  Але спочатку невеликий екскурс в теорію. Потреба у причинному пояснені кореляційних відносин спонукало створення  методу шляхового аналізу (С.Райт, 1920 р) як різновиду структурного моделювання. У основу методу покладено дослідження усієї структури причинних зв’язків між змінними, тобто побудові графа зв’язку і ізоморфної йому рекурентної системи рівнянь. Оцінка коефіцієнта впливу розраховується на основі коефіцієнта парної кореляції. Кожний коефіцієнт парної кореляції розглядається   як міра повного зв’язку двох змінних.
Кореляційно-регресійний аналіз зв'язків між змінними показує, як один набір змінних (X) може впливати на інший набір (У). Не завадять декілька прикладів.
Приклад1. Агроном,  що опікується підвищенням ефективності технологічного процесу хоче перевірити припущення щодо того на скільки величина врожаю  залежить від окремих агрозаходів. Це могло б дати інформацію для проектування більш ефективних технологічних схем. Зібрані дані про ефективність якогось з агрозаходів в умовах різних грунтів (незалежні змінні X1....n) і рівня врожайності з цих дільниць (залежна змінна У). Якщо при обробці цих даних виявиться сильний зв'язок між X і У, то необхідно буде побудувати математичну модель для прогнозування можливих втрат або здобутків при застосуванні тієї чи іншої технологічної схеми і нормування зниження врожаю.
Приклад 2. Помічено,  що об'єм продажів  на ринку продукції залежить від ціни і її якості. На основі зібраних даних необхідно знайти надійне (статистично значуще) рівняння цієї залежності, щоб за відомою ціною виробника (X1) показником якості продукції (Х2) можна було планувати об'єм виробництва або продажів на конкретному ринку (У). В останньому випадку також важливо мати дані про попит на продукцію, оскільки цей зв'язок може бути неоднаковим для періодів року.
Декілька слів відносно оцінки взаємозв’язків Х і У.  В цьому сенсі важливим буде зауваження, що закони розподілу значень факторів між якими хотіли б встановити зв'язки не завжди відомі і, що коефіцієнт кореляції між двома випадковими величинами Х і У, який дорівнює
  ,(1.1)  може  розглядатися як міра взаємодії тільки у випадку нормального  чи близького до нього розподілу. В інших випадках обчислення коефіцієнта кореляції може розглядатися тільки як деяка евристична процедура. В такому разі зв'язки між величинами повинні спиратися на додаткові докази можливості наявності зв'язку, зокрема отримані експериментальним шляхом методами натурного моделювання [2].
Інакше кажучи, якщо випадкова величина розподілена не за нормальним законом, то необхідно знайти її перетворення, що ведуть до нормального розподілу .
Після перетворення випадкових величин за нормальним розподілом може бути проведене визначення парних коефіцієнтів кореляції за формулою (1.1). Як відомо, -1<R<1, при цьому у разі, якщо значення R наближено до одиниці, між величинами можна припускати кореляційний  зв'язок. Доречим буде таке зауваження. Перш за все, коефіцієнт кореляції є показником ступеня зв'язку. При малих величинах R присутні кілька можливостей: між величинами немає кореляційного зв’язку і величина R мала, що обумовлено впливом на порівнювані ознаки х і у деякої ознаки  Z.
У таких випадках вплив цієї ознаки можна виключити за допомогою приватного коефіцієнта кореляції.  , (1.2)
Для обчислення приватного коефіцієнта кореляції необхідно знати парні кореляції  .
У випадках, якщо між величинами х і у існує криволінійний зв'язок, коефіцієнт кореляції може  дорівнювати 0.
   Якщо ввести значення вибіркового кореляційного відношення (для  цієї області зміних,  х і у потрібно поділити на класи хi , уi ) , то отримаємо  кореляційні ґрати.
Якщо вважати, що у залежить від х, то кореляційне відношення буде (   ) :  ,  (1.3), де   - середнє значення у в i-м класі,  - число значень х у цьому класі, k – кількість класів.

Відзначимо, що кореляційне відношення несиметричне відносно х і у, тобто  , що визначається через замінну в (1.3) у на  , буде відрізнятися від   . Вони збігаються тільки у випадках строгої кореляційної залежності. Однак для більшості випадків відносин в агросистемах різниця в їхньому значенні  не має значної ваги. Основною нерівністю, що зв'язує коефіцієнт кореляції R і кореляційне відношення еi, буде:  . Загальні положення про властивості величин, що визначають кореляційну залежність такі [3,5]:
1.  =0, якщо х і у незалежні, але зворотнє є не вірним;
2.  =  =1 тоді і тільки тоді, коли йдеться про стрoгу функціональну лінійну залежність х від у;
3.  <  =1 тоді і тільки тоді, коли мається стрoга нелінійна залежність х від у.
4. Якщо  =  < 1, то не існує функціональної залежності і нелінійна крива регресії підходить краще, ніж пряма, тобто середні класів більш розкидані, чим значення, що задаються найбільш придатною лінійною регресією.
Оскільки  не враховує числа класів, то вона не є мірою залежності х від у, але значення  -  вважається індикатором нелінійності регресії. Кількісно міра відхилення регресії від лінійної може бути оцінена таким чином. Нехай вираз       розподілено як х2 – розподіл зі ступенем свободи (k-2, n-k), де і – число спостережень; k- число класів; х2 – розподіл табульований. Гіпотеза про лінійність кореляції відкидається при f, більших за табличні значення F( х2).
Вимоги системності при дослідженні агро-виробничих, і в загалі виробничо-економічних об’єктів, припускають на попередніх етапах спеціальну організацію даних у вигляді аналізу зв’язків на основі використання статистичних методів обробки інформації [4].
Будь-яке дослідження починається з специфікації моделі, тобто з формування виду моделі, спираючись на відповідну систему зв’язків між змінними. Як зазначалось вище зв’язок змінних x та y описується коефіцієнтом кореляції, який визначається як коваріація між цими змінними віднесенних до їх середніх відхилень:  або    , (1.4)
Помітимо при цьому, що у якості міри тісноти зв’язку між параметрами часто використовують індекс кореляції, який у випадку наявності лінійної залежності має наступний вираз:    та у випадках нелінійного зв’язку:      , де   - середнє квадратичне відхилення від кривої;  - середнє квадратичне відхилення функції від свого середнього арифметичного значення.
На практиці дослідження залежностей між випадковими змінними х та у, як правило, відбуваються у межах спостережень залежності між однією з них і умовним математичним сподіванням іншої, тобто умовне математичне сподівання  випадкової змінної у розглядається як функція х;
 ,    (1.5)
Цей вираз (1.5) має назву регресії випадкової змінної y відносно x. Аналогічно   - випадкова величина х, як функція від у, тобто,  ,   (1.6).
У цьому випадку функція регресії буде характеризувати форму зв’язку. Криву регресії у по х (або навпаки) називають умовне середнє значення випадкової змінної у, яке розглядається як функція певного класу, параметри якої знаходяться методом найменших квадратів (МНК) за значеннями двохвимірної випадкової величини (x,y), що спостерігаються, тобто,  .
Однак, на практиці наведені передумови кореляційного аналізу часто порушуються, коли одна з ознак є величиною не випадковою, або якщо ознаки не мають спільного нормального розподілу, але статистичні залежності присутні. В цьому випадку для вивчення зв’язків між ознаками існує загальний показник зв’язку ознак, який грунтується на показнику змінності. Цей показник зветься дисперсією. Звичайно дисперсію ознаки відносно його математичного очікування називають повною. Наприклад, для ознаки у дисперсія буде мати наступний вигляд [4]:   .
Дисперсію можна розкласти на дві складові, одна з яких буде характеризувати вплив фактора х на у, друга – вплив інших факторів.
Чим меншим є вплив інших факторів, тим тісніше є зв’язок, тим щільніше він наближується до функціонального зв’язку. Якщо ми запишемо
 , то перша складова   вимірює вплив х на у, а друга -   вимірює вплив на у інших факторів(дисперсія ознаки у відносно функції регресії).
Тісноту зв’язку у таких випадках зручно оцінювати в одиницях загальної дисперсії  , тобто розглядати співвідношення:
    , (1.7).
При відомих значеннях загальної дисперсії результативної ознаки у -  і залишкової дисперсії -   будемо мати кореляцію для нелінійної регресії - . Оскільки   ;   , то індекс кореляції  , 0 ≤ R ≤ 1    
Парна кореляційна залежність дає уявлення про наявність та тісноту зв’язків серед змінних, які приймали участь у аналізі. Але більш точний порівняльний аналіз інформаційних потоків, що притаманні  об’єктам нашого дослідження, може  надати регресійний аналіз, коли значення залежної змінної розглядають як функцію від незалежної [5].
Тобто, якщо  основна задача кореляційного аналізу, є  виявлення зв’язків між випадковою змінною шляхом точкової інтервальної оцінки парних коефіцієнтів кореляції, то основною задачею застосування функцій регресії буде вивчення залежності між результативними ознаками у та ознакою х. При цьому помітимо, що попередній аналіз вхідного матеріалу з використанням графічного інструментарію показує на практичну відсутність лінійних трендів, хоча в класичних підходах до статистичного аналізу саме вони (лінійні тренди) і є найбільш реалістичним сценарієм [3]. У своїй більшості у разі аналізу аграрних об’єктів ми маємо нелінійні залежності по змінній x.
За звичай для повноти аналізу пропонується досліджувати наступні типи функцій, що описують нелінійні відносини: нелінійні відносно включених до аналізу пояснюючих змінних та нелінійні за параметрами, які оцінюються.
Найбільш поширеними і такі, що зручно реалізовати в Excel вважаються:
рівнобічна парабола -  ; парабола другого ступеню -  ; поліномінальні рівняння -   ; степеневі рівняння -   ; показові функції -  ; експоненціальні функції -   ִ ; логарифмічні -    .

Вибір виду рівняння відбувається методом експертного оцінювання, тобто порівнянням  величин остаточної дисперсії. Зауважимо, що у багатьох випадках аналізу парних лінійних зв’язків може мати місце значний розсів точок відносно лінії регресії. Така ситуація пов’язана з впливом факторів, що не були враховані.
Для більш повної класифікації моделей, які можна використовувати у кореляційно-регресійному аналізі, доречним буде зауважити, що нелінійні моделі прийнято поділяти на моделі внутрішньо лінійні і внутрішньо не лінійні [2]. Суто полягає у тому, що внутрішньо лінійні моделі за допомогою відповідних перетворень можуть бути приведені до лінійних; моделі внутрішньо не лінійні не можуть бути приведені до лінійного вигляду. Так, наприклад, степенева функція відносно параметрів, що  оцінюються є не лінійною, оскільки включає a, b не адитивна. Однак, ця функція внутрішньо лінійна, оскільки логарифмування по основі e веде до лінійного вигляду моделі:  ;
Навпаки, модель, що представлена як   внутрішньо нелінійна, оскільки у вигляд лінійної її перетворити неможливо. Моделі типу    та    які також є внутришньо нелінійними, у той час як експонента    відноситься до внутрішньо лінійній, оскільки логарифмування її по e дає лінійну форму зв’язків:  .  
 У подальшому ми приділятимемо значної уваги трендовому аналізу і прогнозуванню тому у якості вступу вважаємо за  необхідне звернути увагу на наступне. Під час праці із часовими рядами різних показників та при дослідженні зв’язків між ними необхідно враховувати проблему хибної кореляції та проблему зрушень у часі (лаги).
У часових рядах, що корелюються, хибна кореляція виникає під впливом так званої трендової компоненти. Це є причиною того, що у лінійних трендах вимірюють не рівні змінних Xi, Yi , а їх різницю: ;    
Якщо структуру часового ряду розглядати як таку, що складається з тренда Ti, кон’юнктурного циклу – К, сезонної компоненти – S, залишкової компоненти R, то динамічний ряд можна зобразити як суму цих компонент.
Тобто  часові ряди показників  X і Y можна записати:
 ;        ;
О.Андерсон запропонував вимірювати взаємозв’язки між цими компонентами рядів та вишукувати між ними окремі коефіцієнти кореляції зважуючи на таке:
           - якщо тренди обох рядів дуже виражені та мають однакову спрямованість, то кореляція набуває великого значення;
 - якщо тренди різноспрямовані, то кореляція може бути значна за величиною, але від’ємна за значенням;
    - кореляція між компонентами визначається тіснотою зв’язку між трендами та кон’юнктурними коливаннями, між трендами та сезонною компонентою і т.інш.
 Багатопараметрична регресія є найбільш поширеним методом у  складних аграрних системах у разі їх аналізу і вироблення управлінських рішень на підставі інструментальних засобів.
Основна мета множинної регресії – створити модель з необхідною кількістю факторів, визначивши вплив кожного з них окремо і у сукупної дії на показник, що моделюється.
У разі використання багатопараметричного аналізу слід звернути увагу і на таке.
Будь які дослідження слід починати зі специфікації обраної моделі, тобто формування її виду, виходячи з відповідної теорії між змінними.
Зважуючи на  вимоги  конфлієнтного аналізу, необхідно знати усю сукупність зв’язків між змінними. Змінна буде вважатися корисною, якщо її включення підвищує дисперсію. Якщо введення нової змінної не змінює коефіцієнт  при інших змінних, вона вважається зайвою, а якщо додавання змінної дуже змінило  , без помітної зміни коефіцієнта кореляції,  то вона вважається шкідливою [3].
Безсумнівну зацікавленість, у нашому випадку, викликає оцінка зв’язку одного з показників з іншими, що входять до складу параметрів які характеризують досліджувані нами процеси. Досягається це з допомогою множинного, або сукупного коефіцієнта кореляції який, інтерпретуючи попереднє, може бути записано як:  ,
де: Qm – визначник кореляційної матриці
 λij – алгебраїчне доповнення до елементів Rij
Квадрат коефіцієнта множинної кореляції   зветься множинним коефіцієнтом детермінації.  Показників Rj2, 1,2…m  і Rij позитивні, що приймають  значення в інтервалі 0 < Rj, 1,2…m<1. Оцінками цих коефіцієнтів є вибіркові множинні коефіцієнти кореляції і детермінації.
У випадку, коли ми маємо m математичних сподівань та m дисперсій,
m(m–1)/2 парних коефіцієнтів кореляції, будемо мати багатомірний кореляційний аналіз, де приватний коефіцієнт кореляції L-го порядку на випадок m ознак можна буде знайти з кореляційної матриці [7]:
                  1    r12    . . . r1m
       qm =      r21   1     . . .  r2m
                                              rjk
                             rm1    rm2  . . . 1 .

Багатовимірний кореляційний аналіз дозволяє отримати оцінку функції регресії. Цей аналіз буде мати місце, якщо вимірювання результативної ознаки визначається дією сукупності інших ознак.
У випадку заміни параметрів їх оцінками будемо мати рівняння :
 , де вільний член та коефіцієнти b1…bm знаходять методом найменших квадратів (МНК). Вихідною є вибірка з багатовимірної сукупності показників інформаційних потоків у вигляді матриці Х і вектора У. Для перевірки суттєвості нелінійних рівнянь регресії за F-критерієм Фішера використовують індекс детермінації   ,
де:  R2 – індекс детермінації;
       n –кількість спостережень; m- кількість параметрів при змінній Х.
Таким чином, регресійні обчислення і підбір добрих рівнянь - це важливий, універсальний дослідницький інструмент в найрізноманітніших галузях  ділової (аграрно-виробнича і бізнесова, комерційна, маркетингова, торгівельна) і наукової діяльності. Маючи відповідний інструментарій на своєму комп'ютері і засвоївши технологію використання цього інструменту, користувач зможе застосовувати його у міру необхідності, отримуючи знання про приховані зв'язки, поліпшуючи аналітичну підтримку ухвалення рішень і підвищуючи їх обгрунтованість.


 
загрузка...

Добавить комментарий


Защитный код
Обновить