се
Университет "Проф. д-р Асен Златаров" - Бургас             Димитрова, Ж., Р. Димитрова. Система за обучение по статистика и статистически изчисления с Microsoft Excel  

Регресионен анализ

 Ако между две случайни променливи съществува някаква връзка, то една от най-важните задачи на статистиката е да оцени тази връзка и да се определят характерът и формата на зависимостта. Въпросите, свързани със зависимостта между две случайни променливи, се изследват от два аспекта – от гледна точка на корелацията и на регресията. Корелацията описва степента на зависимост между двете променливи. Когато при изследване на зависимостта между две случайни променливи Х и Y в резултат на корелационния анализ се установи, че зависимостта е статистически значима, може да се пристъпи към нейното математическо моделиране чрез прилагане на регресионен анализ. Регресията оценява стойността на едната променлива за даден елемент въз основа на знанията ни за стойността на другата променлива за същия елемент. Корелационната статистика отговаря на въпроса колко силна е зависимостта между двете променливи. Регресионната статистика дава отговор на въпроса какъв е характерът на зависимостта между тях. Регресията е широко използвана техника за анализ на ретроспективни и експериментални данни.

При изучаване на статистическата зависимост между две случайни променливи Х и Y формата на връзката се задава чрез функцията на регресия y=u(x), където х играе ролята на независима променлива. Тази функция може да бъде линейна, квадратна, показателна и т.н. Графиката й се нарича линия на регресия на променливата Y спрямо променливата Х. Функцията на регресия дава най-доброто представяне на Y чрез Х, тъй като измежду всички реални функции y=f(x)  минимумът на се достига за функцията  f(x)=u(x).Това свойство се използва за прогнозиране на стойностите на Y въз основа на известни стойности на Х. По-точно, ако за някой от изследваните обекти не може да бъде измерена стойността на променливата Y, но е измерена стойността на променливата Х, то в качеството на прогнозирана (очаквана) стойност на Y се използва стойността u(x). 

Най-обща визуална представа за зависимостта между двете променливи Х и Y се получава от графичното представяне на данните. По емпиричните данни се съставя точкова диаграма (диаграма на разсейването). Множеството от точки в нея е разположено в определено поле корелационно поле (корелационна елипса).

                            

Построяването на диаграма на разсейването позволява визуално да се установи дали изучаваната зависимост е линейна или криволинейна по форма. Целта е да се намери подходяща математическа функция, която описва разпределението на емпиричните данни. Регресионният анализ включва:

                 Регресионният анализ служи за моделиране формата на зависимостта на един зависим (резултативен) признак от един или няколко фактор-признаци (независими променливи), като не се отчита, че изменението на разглежданите величини може да се дължи на външни, невключени в модела признаци. Когато независимата променлива е една, се прилага еднофакторен регресионен анализ. Когато резултативната променлива зависи от два или повече фактора (независими променливи), говорим за многофакторен (многомерен) регресионен анализ.

Линейна регресия

Единична (обикновена) линейна регресия

Особено място в регресионния анализ заема линейният модел на връзка между две случайни променливи Х и Y. Когато зависимостта между двете променливи (резултативната  Y и факторната X)  е линейна по форма, то точките са разположени около въображаема права линия (възходяща или низходяща). В този случай търсим уравнението  на правата, която минава "най-близо" до точките от корелационното поле, т.е. най-добре отразява зависимостта между двете променливи. Критерий за "най-близо" – сборът от квадратите на разликите между емпиричните стойности y и техните оценки  , които са ординатите на съответните точки от правата, да има минимум, т.е. .  Търсеното уравнение  се нарича регресионно уравнение (линеен регресионен модел).

За намирането на неизвестните коефициенти a и b се прилага методът на най-малките квадрати, при което се стига до системата

От нея се получава решението

  .

След определянето на коефициентите a и b се получава регресионният модел Коефициентът b се нарича регресионен коефициент – той показва с колко единици се изменя зависимата променлива при изменение на факторната променлива с единица. Чрез регресионното уравнение могат да се получат оценките    за всяка стойност на х:

   и т.н.

Остатъци и стандартна грешка на оценката - SY/X

Получените въз основа на регресионното уравнение оценки показват какви щяха да бъдат значенията на резултативната величина, ако зависимостта се проявява еднакво при всички единици. В същото време, поради факта, че върху Y влияят и други фактори, точките от диаграмата на разсейване се отклоняват от графиката на функцията. Разликите  между фактическите значения y и изчислените чрез регресионното уравнение се наричат остатъци (Residuals) и са конкретните грешки на оценките при всяка единица. Колкото по-силна е зависимостта, толкова фактическите стойности y са по близко до регресионната линия и остатъците са по-малки.
               Обобщаваща информация за големината на отклоненията на фактическите стойности от теоретично очакваните дава показателят
стандартна грешка на оценката (SY/X), която се изчислява по формулата:

.

Чрез използването на уравнението на регресия се получава точкова оценка на . Интервалната оценка се получава въз основа на стандартната грешка на оценката SY/X  и критичните стойности на  или при избраното ниво на доверие.  Доверителните интервали при нормално разпределение и при t-разпределение ще бъдат:

  Пример 1. В таблицата са дадени данни за резултатите от тест по математика и резултатите от тест за интелигетност на шестима студенти. Да се определи дали съществува зависимост между резултатите от теста по математика и резултатите от теста за интелигетност.
                   1.     Да се построи линеен регресионен модел.
                   2.   Да се направи прогноза за
резултата от теста за интелигетност, ако на теста по математика са получени 15 точки.




В Excel изчисляването на коефициентие на уравнението на регресия може да се извърши по различни начини: чрез статистическите функции LINEST, SLOPE, INTERCEPTс инструмента Regression на Data Analysis или чрез добавяне на линия на тенденцията (Trendline) към серия от данни в диаграма.



Линеен регресионен анализ с функията LINEST

За данните от Пример 1 функцията LINEST следва да се приложи по следния начин:

1. Преди да се извика функцията е необходимо да се маркира областта за резултата A10:B14 (5 реда х 2 колони).

2. След извикването на функцията се избират съответните области от таблицата в полетата на нейните аргументи.

3. Вместо OK за край се натискат клавишите CTRL+SHIFT+ENTER.

Получените резултати от функцията са:


Тези резултати са обяснени при инструмента Regression.


Функции SLOPE, INTERCEPT и STEYX

Чрез тези функции директно в клетките на работния лист може да бъдат получени: коефициентите на уравнението на регресия и стандартната грешка на оценката SY/X:

- SLOPE - за ъгловия коефициент b

- INTERCEPT - за свободния член a 


- STEYX - за стандартната грешка на оценката SY/X


Линеен регресионен анализ с инструмента Regression

Пример 1 може да бъде решен и чрез прилагане на инструмента Regression на Data Analysis. Data Analysis се отваря с Data/Data Analysis. Инструментът Regression всъщност използва функцията LINEST, но предоставя по-удобен интерфейс за въвеждани на данните, както и допълнителни резултати за проверка статистическата значимост на регресионния модел и на коефициентите на уравнението на регресия.


В Input Y Range се задава областта от клетки с известните стойности на резултативния признак Y, а в Input X Range - областта от клетки с известните стойности на фактора X. Ако в тези полета от области са въведени и етикетите на стойностите, то се поставя отметка в полето Labels.

В Confidence level се задава нивото на доверие.

В Output Options се определя къде да се получат резултатите - в същия или в нов работен лист или в нова работнва книга.

В Residuals се избират съответните полета за остатъците и графичното им представяне - поставят се тметки за Residuals, Standardized Residuals,
Residual Plots и Line Fit Plots  съответно за остатъците от регресията, стандартизираните остатъци от регресията, графиките на зависимостта между фактор-признаците и остатъците от регресията и между фактор-признаците и резултативният (зависим) признак.
                 В  Normal Probability се поставя отметка на Normal Probability Plots, за да се изведе в работния лист графиката на зависимостта между съответните
квантили на нормалното разпределение и предсказаните стойности на наблюдавания признак Y.



Резултатите се получават в следните таблици:






SUMMARY OUTPUT

            Резултатите от тази таблица съдржат следните статистически величини:

                                 - Multiple R - това е корелационният коефициент R на Пирсън: 0,873

  - R Square - коефициент на детерминация R2. Коефициентът на детерминация R2 ( квадратът на корелационния коефициент) показва частта от дисперсията на Y, която е свързана или може да се обясни с дисперсията на X. Той е един от критериите за оценка адекватността на регресионния модел. Ако използваме коефициента на детерминация във връзка с корелационния коефициент, то корелация между 0,7 и 0,9 се интерпретира като висока, защото чрез нея може да се обясни не по-малко от половината дисперсия - между 49% и 81%. От друга страна, корелация с коефициент до 0,30 се приема за твърде ниска, тъй като обяснява не повече от 9% от дисперсията чрез връзката на двете случайни променливи. В случая 76,3% от дисперсията на  Y може да се обясни с дисперсията на X.

  - В Adjusted R Square е даден изгладеният коефициент на детерминация R2 = 0,704

  - В Standard Error е дадена стандартната грешка на оценката SY/X = 2,007

  - В Observations е указан броят на наблюденията - 6.

   ANOVA

Разделът ANOVA (Aanalysis of Variance, Дисперсионен анализ) включва две отделни таблици.

Първата таблица се използва за проверка за адекватността (значимостта) на регресионния модел. Схемата на дисперсионния анализ за установяване на статистическа значимост на регресионния модел е представен в следната таблица:

Общата дисперсия на Y се изчислява въз основа на сумата от квадратите на отклоненията на всяка една стойност на резултативния признак Y от средната аритметична величина на тези стойности . Общата дисперсия на Y се разглежда като като сума от:
                 - отклоненията на теоретичните стойности YT от средната аритметична на Y (SS фактор). Това са различията, които са свързани с влиянието на независимата променлива
                 - отклоненията на фактическите стойности от теоретичните (YFYT) (SS остатъци). Това е така наречената дисперсия на остатъците, която носи информация за различията на Y, които се дължат на влиянието на случайни (неизследвани) фактори.
                  Колкото по-голяма е частта от дисперсията, която се дължи на влиянието на фактора (SS фактор) и по-малка е частта от дисперсията на остатъците (SS остатъци), толкова зависимостта е по-силна и моделът описва по-добре зависимостта между изучаваните явления. Тези две съставни на дисперсията се осредняват (MS), като се разделят на степените на свобода (df), където: m – брой на фактор-признаците в уравнението  на линейна регресия (в случая m = 1), n - брой на наблюденията (в случая n = 6).

На базата на тези средни стойности се изчислява F-критерият на Фишер по показаната формула.

Изводи за статистическата значимост на регресионния модел

Получената емпирична стойност (Femp) се сравнява с табличната, определена от съответно Приложение за Критични стойности на F-критерия на Фишер при дадено равнище на значимост (в случая 0,05) за посочените степени на свобода (df1 = 1 и df2 = n-2). Ако:
                Femp<F0,05 – зависимостта е недостоверна;
                FempF0,05 – зависимостта е статистически значима.
               По данните от примера Femp =12,876, табличната стойност на критерия (F0,05) при степени на свобода df1 = 1 и  df2 = 4 е F0,05 = 7,71. Femp > F0,05, което означава, че зависимостта е статистически значима. Този извод може да бъде формулиран и въз основа на стойността на Significance F - по този начин отпада необходимостта от сравняване на емпиричната стойност на F критерия със съответната таблична стойност. В случая Significance F = 0,023 < 0,05, което означава, че зависимостта е статистически значима за избраното ниво на значимост 0,05.

Във втората таблица на раздела ANOVA се съдържат данни за коефициентите на регресионното уравнение и тяхната статистическа значимост.

В колоната Coefficients  са дадени стойностите на коефициентите a  и  b на регресионното уравнение: y =1,235x+54,706:

- на реда Intercept  е свободния член a - по данните от примера той е равен на 54,706. Съответстващата му стойност на t-критерия на Стюдънт (t = 11,190) и равнището на значимост (P-value = 0,00) се използват за проверка на неговата статистическа значимост. Тъй като P-value = 0,000 <0,05, то може да бъде формулиран изводът, че свободният член е статистически значим
                  - на реда X Variable 1 е изписана информация за ъгловия коефициент b. Неговата стойност е равна на 1,235. Коефициентът е статистически значим при ниво на значимост 0,05 (t = 3,588;  P-value = 0,023 <0,05) .

В колони Lower 95% и Upper 95% (и съответните им Lower 95.0% и Upper 95.0%) са изчислени съответно долната и горната граница на доверителния
интервал (ДИ) съответно за коефициентите a и b на уравнението на регресия. Стойностите за ДИ в стълбовете Lower 95.0% и Upper 95.0% са същите
като стойностите в стълбовете Lower 95% и Upper 95%, тъй като е прието указаното по подразбиране ниво на доверие 0,05, т.е. 95% ДИ.

Формулирането на изводи за статистическата значимост на регресионния модел и на неговите коефициенти има важно значение за оценка на качеството на линейния модел при прогнозиране на стойностите на Y. За разглеждания пример моделът, неговите коефициенти и коефициентът на детерминация и са статистически значими. Стойността на коефициента на детерминация R2 = 0,76  показва, че 76% от общата дисперсия на резултативния признак може да се обясни с дисперсията на фактора. Останалите 24% се дължат на невключени в модела фактори. Въз основа на стойността на коефициента b може да се направи следният извод: увеличаването на фактор-признака X с една единица води до увеличаване на резултативния признак с 1,235 единици.

В случаите, когато не се потвърждава статистическата значимост на регресионния модел и/или на неговите коефициенти, е възможно е моделът да се окаже недостоверен поради недостатъчен обем на извадката. В този  случай е необходимо да се добавят още статистически единици. Наличието на силно отклоняващи се стойности на независимата променлива Х или на зависимата променлива Y намалява точността на регресионните модели. Това може да доведе до погрешни заключения за изучаваната зависима променлива Y (проява на обективно несъществуващи зависимости или съществуваща зависимост да се окаже недостоверна).  Диагностика на силно отклоняващи се стойности  на независимата променлива или на зависимата променлива е друга стъпка, насочена към подобряване на качеството на регресионния модел.


RESIDUAL OUTPUT

Таблица Residual Output показва: номерата на наблюдаваните статистически единици; теоретичната (оценъчната) стойност на резултативния признак; остатъците  и  стандартизираните остатъци от регресията (остатъците  се стандартизират, като се разделят на SY/X). Тъй като остатъците имат отношение както към регресионното оценяване, така и към диагностиката на зависимостите за силно отклоняващи се стойности, то тяхното изследване е част от регресионния анализ. Остатъците трябва да са независими от състоянието на независимата променлива Х.


В таблица Probability Output са показани процентите на ДИ и съответните им емпирични стойности Y



                                 Интервални оценки на

Чрез използването на уравнението на регресия се получава точкова оценка на . Както бе посочено по-горе, интервалната оценка на се получава въз основа на стандартната грешка на оценката Sx/y и критичните стойности на  или при избраното ниво на доверие.  За получаването на критичните стойности на  и в Excel се използват функциите: NORMSINV и TINV.

За Пример 1 следва да се използва функциятаTINV(; степени на свобода); TINV(0,05; n - m - 1); TINV(0,05; 4) = 2,776.

Lower 95%= 1,235 x + 54,706 - 2,776 . 2,007;         Upper 95% = 1,235 x + 54,706 + 2,776 . 2,007

 Графичното  представяне на доверителните интервали на прогнозните стойности дава нагледна представа за размера на максималната грешка:




Линия на тенеденцията - Trendline

     Линията на тенеденцията е графично средство за анализ на серия от данни и за прогнозиране на бъдещи стойности на серията от данни, представена в диаграма. Построяването на линия на тенденцията е илюстрирано въз основана следния Пример 1.

Пример 1. Пред фирма за бързи куриерски услуги в населено място е поставена задачата да определи зависимостта между разстоянието до мястото на доставката и времето за доставката. За целта по случаен начин са събрани данни за десет доставки, представени в таблицата. Да се построи регресионен модел.


      1. Маркират се данните от таблицата и с Insert/Scatter се построява следната графика. 


     2. С десен бутон на мишката се макира серията от данни в графиката след което се избира Add Trendline от контекстното меню.




  3. В прозореца Format Trendline въз основа на графичния вид на серията от данни потребителят избира най-подходящ вид на линия на тенденцията от тези, които Excel предлага. Поставят се отметки  в Display Equation on Chart  и Display R-squared value on chart.

 












За дадена серия от данни могат да бъдат построени различни линии на тенденцията, за да се избере най-добрта от тях с цел интерполация на данните:






  Множествена линейна регресия
                Ако в регресионния анализ е залегнало изучаването на едновременното влияние на повече от един фактор, зависимостта може да се моделира като множествена. Уравнението на регресия при линейния многофакторен регресионен анализ има вида:

,  където
е теоретичната (оценъчна) стойност на резултативния признак;
xi, i = 1, …, m са измерените стойности на фактор-признаците;
bi, i = 1, …, m са коефициентите в уравнението на регресия;
a е свободният член.



Пример 2. В следващата таблица са дадени данни за общите разходи на туристите за почивка в конкретна дестинация  и за съответните елементи на разходите:  разходи за настаняване,  разходи за храна  и разходи за шопинг и допълнителни услуги. Да се  определи зависимостта между общите разходи и съответните елементи на разходите и се построи линеен гегресионен модел.









                                За решаването на този пример е подходящо е да се използва инструментът Regression:







                                            Резултати:





                            Изводи:
                            1. Моделът е статистически значим. 95,7% от дисперсията на Y може да бъде обяснена с дисперсията на фактор-признаците.
                            2. Всички коефициенти на уравнението на регресия, с изключение на свободния член, са статистически значими. Високата стойност на свободния член показва, че може да се добавят и други елементи на разходите, например разходи за транспорт.