Для поиска темы - пользуйтесь СИСТЕМОЙ ПОИСКА


Стоимость дипломной работы


Home Для студента... Этапы корреляционно-регрессионного анализа

Этапы корреляционно-регрессионного анализа
загрузка...
Рейтинг пользователей: / 0
ХудшийЛучший 

Этапы корреляционно-регрессионного анализа

Первый этап - сбор данных.
В корреляционно-регрессионном анализе решающую роль играет качество данных, создавая  фундамент прогнозам. Поэтому имеется ряд требований и правил, которые следует.
1.    Данные должны быть наблюдаемыми, т. е. полученными в результате замера, а не расчета.
2.    Наблюдения следует спланировать.
3.    Число  наблюдений должно быть не менее чем в 5 - 6, а лучше - не менее чем в 10 раз больше числа факторов.
4.    Чем больше неодинаковых (не повторяющихся) данных, и чем они однороднее, тем
лучше получится уравнение, если связи существенны.
5.    Подозрительные данные до начала анализа рекомендуется отбрасывать (исключать из массива).   

Второй этап - корреляционный анализ.
Целью этапа является определение характера  связи между факторами, характеризующими исследуемые процессы или объекты. Связь может быть прямой или  обратной, а  и сила связи определена следующими качественными значениями - связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь. Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений.
При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей:
    связи зависимой переменной с независимыми;
    связи между самими независимыми переменными.
Рассмотрение матрицы позволяет, выявить факторы, действительно влияющие на исследуемую зависимую переменную, и выстроить (ранжировать) их по убыванию связи, а  также минимизировать число факторов в модели, исключив часть факторов, которые сильно или функционально связаны с другими факторами (речь идет о связях независимых переменных между собой).
Наиболее надежными на практике бывают одно- и двухфакторные модели.
Если будет обнаружено, что два фактора имеют сильную или полную связь между собой, то в регрессионное уравнение достаточно будет включить один из них. Например, в одно регрессионное уравнение нельзя одновременно включать переменные «Количество работающих» и «Производительность труда» как независимые (поскольку показатель производительности труда получают делением выработки работников на количество работающих).


Третий этап - расчет параметров и построение регрессионных моделей.
На этом этапе необходимо отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин X1, X2, …..Xn
Эта мера обобщенно выражается математической моделью линейной множественной регрессионной зависимости
Y =  a 0  +  a1X1  +  a 2X2  +  . . . . . +  a nXn ,
где
a 0  - свободный член (константа, или пересечение);
a1 ,  a 2 , ………a n  - коэффициенты регрессии;
X1 , X2 ,……... Xn - факторы или предикаты.
Осуществление второго этапа сильно зависит от выводов, которые получены при анализе корреляционной матрицы. Можно значительно ускорить проведение регрессионного анализа и снизить затраты на исследование, если принять правильную стратегию поиска наилучшего уравнения. Для этого необходимо знать основные и наиболее эффективные методы поиска наилучшего уравнения.
После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости, поэтому третий  этап корреляционно-регрессионного анализа неразрывно связан с четвертым.
Четвертый  этап – определение  статистической значимости модели.
Проверяется пригодность модели для использования ее в целях предсказания значений зависимой величины Y. Для оценки качества полученной модели необходимо вычислить ряд коэффициентов, сравнить их с известными статистическими критериями и оценить модель с точки зрения здравого смысла.
На этом этапе исключительно важную роль играют коэффициент детерминации, F-критерий (критерий Фишера)значимости регрессии, t – статистики (критерий Стьютента).
Коэффициент детерминации (R2) - это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретическим значением, вычисленным на основе модели с определенным набором факторов. Коэффициент' детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.
R2 есть доля вариации прогнозной (теоретической) величины Y относительно наблюденных значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если R2 > = 80%. Это значит, что на 80% теоретические значения Y зависят от рассматриваемых факторов, а  на 20%   от других, не участвовавших в модели факторов. Для увеличения коэффициента детерминации необходимо выявить новые факторы, включить их в уравнение регрессии и определить R2 .
Вторым коэффициентом является F-критерий значимости регрессии для уравнения в целом. Это рассчитанное по наблюденным данным значение следует сравнивать с соответствующим критическим значением Fк , которое  выбирает из статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).
Если наблюденное значение  F окажется меньше критического значения Fк , то уравнение нельзя считать статистически значимым, то полученная модель не адекватна исследуемому процессу и не может быть использована для целей прогнозирования.
t – статистики позволяют оценить статистическую значимость каждого фактора модели, что дает возможность определить, какая переменная должна быть исключена на текущем шаге построения уравнения регрессии. Аналогично F-критерию, вычисленные t – статистики сравниваются с критическим значением критерия Стьюдента, определенным по статистическим таблицам.
Четвертый этап – использование модели.
Если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.
Если же обнаружена незначимость, то модель отвергается, предполагая, что истинной окажется какая-то другая форма связи, которую надо найти. Например, с самого начала работы (как бы по умолчанию) строилась и проверялась линейная регрессионная модель. Незначимость ее служит основанием для того, чтобы отвергнуть только линейную форму модели. Возможно, что более подходящей будет нелинейная форма модели.


 
загрузка...

Добавить комментарий


Защитный код
Обновить