Университет "Проф. д-р Асен Златаров" - Бургас             Димитрова, Ж., Р. Димитрова. Система за обучение по статистика и статистически изчисления с Microsoft Excel  

Проверка на хипотези

Проверката на хипотези предполага да се прецени доколко една предварително зададена стойност на параметъра е правдоподобна, т.е. да се направи заключение дали информацията, получена по извадката, съответства на очакванията. По този начин може да се вземе решение за приемане или отхвърляне на хипотезата въз основа на резултатите от наблюденията.

Понятието хипотеза в контекста на статистическия извод обикновено се определя като предположение относно стойността на един параметър (или на няколко параметъра) на генералната съвкупност. Тази предварително зададена стойност няма пряко отношение към статистическия извод и обикновено се получава на базата на теоретични знания и предварителен опит в изследваната област. 

Най-често се проверява равенството на параметъра на една фиксирана стойност (предположението) срещу една или повече алтернативи. Проверяваната хипотеза се нарича нулева хипотеза и ще я означаваме с H0. Като правило нулевата хипотеза е твърдение, което посочва липсата на разлика. Формулира се, например, така:

  или 

Нулевата хипотеза се проверява срещу алтернатива, която се нарича алтернативна хипотеза и ще я означаваме с Ha. На практика алтернативната хипотеза обикновено съдържа твърдението, към което се стреми изследователят и затова тя е желаният резултат.  Алтернативните хипотези могат да бъдат определени като ненасочени и насочени. При нулева хипотеза ненасочената алтернативна хипотеза е . В този случай не е зададена посока на алтернативата и затова тя се нарича ненасочена или двустранна алтернатива

В случаите, когато разполагаме с допълнителна информация за изучаваното явление, по-подходящи могат да се окажат насочените (едностранните) алтернативи. Например,

,

Тестът за нулева хипотеза срещу насочена алтернатива е по-мощен от аналогичния тест срещу ненасочена алтернатива, тъй като нулевата хипотеза се отхвърля по-лесно, когато разликата между хипотезираната стойност на параметъра и стойността на извадковата статистика е с подходящо определена насоченост. 

Дори алтернативната хипотеза да е формулирана по-рано, тя се поставя след нулевата хипотеза във формалното описание. Смисълът е, че за да се покаже правдоподобността на алтернативната хипотеза, нулевата хипотеза трябва да бъде отхвърлена. 

Критерий за приемането или отхвърлянето на нулевата хипотеза е дали вероятността, свързана със съответната извадкова статисктика, е по-голяма или по-малка от предварително зададена прагова стойност. Тази прагова стойност се нарича ниво на значимост и се означава с . В приложенията на статистиката двете най-често използвани -нива са 0,05 и 0,01. Нивото на значимост е вероятностното равнище, което се избира от изследователя. Ако при хипотезираната стойност на параметъра вероятността за появата на получената по извадката статистика е по-малка от приетото ниво на значимост, то нулевата хипотеза се отхвърля като несъответстваща на наблюдаваната ситуация. Ако обаче тази вероятност е по-голяма от праговата стойност, нулевата хипотеза не се отхвърля, т.е. тя се приема за правдоподобна. Когато нулевата хипотеза се отхвърля, например при се казва, че „резултатът е статистически значим при ниво 0,05”. Определянето на нивото на значимост е в известен смисъл произволно. В някои случаи, вместо нива от 0,05 и 0,01 се използват и други нива – например, 0,001 или 0,005. Намаляването на тези стойности статистически се оценява като „движение към по-консервативна посока”, тъй като в този случай нулевата хипотеза ще бъде отхвърляна по-рядко. В някои ситуации неотхвърлянето на невярна нулева хипотеза може да има сериозни последствия. Тогава е желателно да се използват по-малко консервативни нива на значимост, например 0,1 или 0,2. Във всички случаи нивото на значимост е свързано с риска, който изследователят може да приеме, неговите изводи да бъдат грешни. 

Видове грешки при проверка на хипотези

При всяка проверка на хипотези има две възможности по отношение на нулевата хипотеза – да бъде отхвърлена или да бъде приета. Отхвърлянето на невярна хипотеза и приемането на вярна хипотеза са правилни решения. Възможно е обаче да се отхвърли нулевата хипотеза, когато в действителност тя е вярна или да се приеме нулевата хипотеза, когато тя е невярна. Тези две решения са свързани с двата типа грешки, които се допускат при проверката на хипотези. Отхвърлянето на вярна хипотеза се нарича грешка от първи тип, а приемането на невярна хипотеза се нарича грешка от втори тип. Всички възможни решения при проверката на хипотези са дадени в следващата схема.


Действително състояние
Нулевата хипотеза е вярна Нулевата хипотеза е невярна
Решение Нулевата хипотеза се отхвърля Грешка от първи тип Вярно решение
Нулевата хипотеза не се отхвърля Вярно решение Грешка от втори тип

Не съществува еднозначен и безусловен отговор на въпроса коя от двете възможни грешки се счита за по-сериозна. Двата типа грешки имат сложна взаимовръзка и не е възможно техният размер да бъде минимизиран едновременно, затова на практика винаги се търси някакъв компромис. Допускането на коя от двете грешки може да има по-тежки последствия зависи единствено от контекста на решаваната задача и решение може да бъде взето само на експертно равнище. Вероятността да бъде направена грешка от първи тип съвпада с нивото на значимост , като сборът от нивото на значимост и нивото на доверие е равен на 1. Ако нулевата хипотеза се отхвърля, то вероятността за допускане на грешка от втори тип не може да се определи толкова лесно. Тази вероятност се означава с . Разликата се нарича мощност на теста и е една от основните характеристики на статистическите качества на даден метод за проверка на хипотези. В практиката обикновено се фиксира нивото на значимост и се избира такъв тест, който при определени условия ще доведе до най-малка вероятност за грешка от втори тип. 

Нивото на значимост е свързано с лицето на фигурата под кривата на съответното извадково разпределение.

Пример 1.  За извадка с обем n = 400  стандартното отклонение  е s = 16. Изследователят формулира нулевата хипотеза срещу алтернативната хипотеза: ниво на значимост .  Тъй като обемът на извадката е по-голям от 120, то можем да приемем, че извадковото разпределение на средните е нормално със средна стойност  и стандартно отклонение От свойствата на нормалното разпределение е известно, че 95% от стойностите се съдържат в интервала Лицето на двете защриховани части от следващата фигурата  е равно на вероятността извадковата средна да приеме стойности, които са малко вероятни, при положение, че 


 Следователно, вероятността да получим оценка за извадковата средна, която да е по-малка от или да е по-голяма от не надхвърля 5%=0,05. Защрихованата област се нарича критична област или област на отхвърляне. Останалата част от фигурата под кривата (незащрихованата част) се нарича област на приемане или област на неотхвърляне на нулевата хипотеза и съответства на по-вероятните стойности на извадковата средна, когато нулевата хипотеза е вярна. Критичната област е разделена на две еднакви части, които са симетрични относно хипотезираната средна, тъй като алтернативната хипотеза е ненасочена. В горния пример областта на неотхвърляне на нулевата хипотеза се състои от всички стойности между 98,43 и 101,57, а критичната област съдържа извадковите средни по-малки от 98,43 или по-големи от 101,57. Обикновено тези две стойности се наричат критични стойности при проверка на нулевата хипотеза. 

Ако наблюдаваната стойност на средната на извадката попада в критичната област, то нулевата хипотеза се отхвърля. Всяка стойност от областта на отхвърляне може да се наблюдава с вероятност, не по-голяма от , ако нулевата хипотеза е вярна. Тъй като тази вероятност е приемливо малка, то изследователят отхвърля нулевата хипотеза в полза на алтернативната хипотеза. Така се приема, че разликата между наблюдаваната средна на извадката и хипотезираната средна на генералната съвкупност е твърде голяма, за да бъде отнесена единствено за сметка на случайните извадкови грешки. Но съществува известна малка вероятност (равна на 0,05) разликата да се дължи само на случайните отклонения, т.е. да е допусната грешка от първи тип. Тъй като вероятността за това е приемливо малка, то изследователят взема решение за отхвърляне на нулевата хипотеза. Резултатът в този случай е, че извадковата средна се различава „статистически значимо” от хипотезираната стойност при ниво на значимост

Ако наблюдаваната стойност на извадковата средна не попада в критичната област, няма достатъчно основание за отхвърляне на нулевата хипотеза и хипотезираната стойност трябва да бъде разглеждана като правдоподобна стойност за средната на генералната съвкупност. Този извод се основава на свойствата на извадковото разпределение и на факта, че наблюдаваната разлика между извадковата средна и хипотезираната средна не е достатъчно голяма, за да гарантира отхвърлянето на нулевата хипотеза. Тази разлика е „статистически незначима” и може да бъде отнесена за сметка на случайните извадкови отклонения. Разгледаната процедура носи името двустранен тест за проверка на нулевата хипотеза. 

Когато алтернативната хипотеза е насочена, се прилага същата стратегия за проверка на нулевата хипотеза при дадено ниво на значимост. Различие има при определяне на критичната стойност и критичната област. 

Пример 2. За извадка с обем n = 400  стандартното отклонение  е s = 16. Изследователят се интересува дали извадковата средна е значимо по-голяма от 100 и формулира хипотезата при ниво на значимост 0,05. За целта се разглежда критичната област, лежаща в десния край на извадковото разпределение. Така 5-те %, определящи вероятността за грешка, не се разпределят в двата края, а само в десния край на разпределението. Това води до нова, различна критична стойност - в случая критичната стойност е Критичната област лежи отдясно от критичната стойност. 

Ако извадковата средна попада в критичната област, нулевата хипотеза се отхвърля. Ако тя попада в областта на приемане, нямаме достатъчно основание да отхвърлим нулевата хипотеза и приемаме хипотезираната стойност като подходяща за параметъра на генералната съвкупност. Тази процедура с насочена алтернатива е прието да се нарича едностранен тест.

Критичните области при двустранен и едностранен тест са дадени в следващата таблица.

При проверката на хипотези е по-удобно да се работи със стандартизирани стойности. Вместо да се изчисляват критичните стойности при двустранен тест или едностранен тест за се използват стандартизираните стойности ±1,96 или 1,645 (съответно -1,645) като критични. Тогава може да се изчисли наблюдаваната z-стойност (при големи извадки n >=120) или t-стойност (при малки извадки) и да се сравни със стандартизираните критични стойности. В този случай z или t-стойността е прието да се нарича тестова статистика. Общата формула за тестовата статистика е

Тази формула се прилага и при двата теста - двустранен и едностранен. Алтернативната хипотеза определя къде лежи критичната област. 

При промяна на нивото на значимост се променят и критичните стойности. Критичните стойности на тестовата статистика се вземат от съответна таблица. За големи извадки критичните стойности са поместени в следващата таблица.


Проверка на хипотези при една извадка 

Проверката на всяка хипотеза относно параметър на генералната съвкупност преминава през отговорите на следните въпроси: 

1. Каква хипотеза се проверява? 

2. Каква е хипотезираната стойност на параметъра и каква е оценената по извадката стойност? 

3. Какво е извадковото разпределение на статистиката и каква е стандартната грешка на тази статистика? 

4. Каква е критичната стойност на тестовата статистика и каква е стойността на тестовата статистика? 

5. Какво е решението, до което достигаме? 


При проверката на хипотези, ако е известно стандартното отклонение на генералната съвкупност, обикновено се приема, че извадковото разпределение на средната е нормално, дори и за неголеми извадки. Ако обаче то е неизвестно и се работи с оценено стандартното отклонение, то и за извадки със сравнително голям обем (до 120) се приема, че извадковото разпределение на средната е t-разпределение. 

Проверка на хипотези за средната на генералната съвкупност при нормален закон на разпределение

Проверката на хипотези за средната на генералната съвкупност при една извадка и нормален закон на разпределение се основава на тестова статистика, изчислявана по следната формула:

където е хипотезираната стойност на средната на генералната съвкупност, от която е извадката. 

Тестовата стойност се сравнява с критични стойности, които се определят въз основа на предварително задено ниво на значимост. В следващата таблица са показани критериите за отхвърляне или приемане на нулевата хипотеза при различните видове тестове.


За разгледания пример е използван нормален закон на разпределение, тъй като е известно стандартното отклонение на генералната съвкупност (независимо, че извадката е с малък обем).

Проверката на хипотези за средната на генералната съвкупност при една извадка и нормален закон за разпределение е реализирана  в табличен модел на Excel, в който е представен следният 

Пример 4. Ръководството на университет установява, че за текущата година успехът на студентите се е променил. За предходните 5 години средният успех е 4,25. За проучването е взета случайна извадка от 256 студенти, като средната на извадката е 4,15, а стандартното й отклонение е 0,75. Да се проверят следните хипотези: 

а) Успехът през текущата година не се различава от този през последните 5 години при ниво на значимост 0,05 и 0,01; 

б) Успехът през текущата година е по-нисък от този през последните 5 години при ниво на значимост 0,05 и 0,01 [2].

Табличният модел се намира във файла hypothesis.xls. В него е използвана функцията NORMSINV  за определяне на критичните стойности при различни нива на значимост, както за проверка на двустранни хипотези, така и за проверка на едностранни хипотези. Чрез логическата функция IF е автоматизирана проверката на хипотезите. Моделът може да се използва за проверка на хипотези като се променят стойностите на средната, стандарното отклонение, размерът на извадката и нивото на значимост.

Проверка на хипотези за средната на генералната съвкупност при малки извадки

Когато не са известни средната и стандартното отклонение на генералната съвкупност и обемът на извадката е по-малък от 30, извадковото разпределение на средната се приема за t-разпределение. Тестовата статистика се изчислява по формулата


За определяне на критичните стойности на t в зависимост от нивото на значимост и степените на  свобода може да се използва функцията TINV. За Пример 5 функцията ще има вида TINV(0,05*2; 14) - нивото на значимост 0,05 се умножава по две при едностранен тест, обемът на извадката е n = 15, следователно степените на свобода са 14 - вторият аргумент на функцията представлява степените на свобода (n - 1).

Проверка на  хипотези при две извадки

 Проверка на  хипотези относно разлика между средни на две независими извадки

За проверка на хипотеза относно разлика между средни на две независими извадки за количествени признаци, които имат нормално разпределение, се прилага t-критерий на Стюдънт за независими извадки

Независимо от вида на изходните допускания нулевата и алтернативната хипотези при едностранен и двустранен тест се формулират по следния начин:


Проверката на  хипотеза относно разлика между средни на две независими извадки се извършва с различни изчислителни процедури в зависимост от това какви са изходните допускания: генералните съвкупности, от които са извлечени извадките, са с равни дисперсии; генералните съвкупности са с различни дисперси.

Проверка на хипотези относно разлика между средни на две независими извадки при генерални съвкупности с равни дисперсии ще илюстрираме въз основа на следния

Пример 6. Преподавател по физика разделя в началото на семестъра по случаен начин студентите на две групи, като в едната група - контролна група от 9 студенти - прилага съществуващата методика на преподаване, а във втората група - експериментална група от 10 студенти - използва нова методика. Получените от студентите резултати са дадени в следващата таблица. Да се провери хипотезата, че при двете методики се получават едни и същи резултати при ниво на значимост 0,05 - прилага се двустранен тест

Тъй като двете извадки са с малък обем, то в случая се приема t-разпределние. За проверката на тези хипотези е необходимо да се приложи  инструментът на Excel t-Test: Two-Sample Assuming Equal Variances  - стартира се чрез Data/Data Analysis.

 Достатъчно е потребителят да задададе областите с данни, нивото на значимост  и да се укаже къде ще се получат резултатите- тестовата статистика (t Stat) и критичните стойности както при двустранен, така и при едностранен тест и съответните вероятности - P Values:

Тестовата статистика (t Stat) в този случай е -2,18 и тъй като тя е по-малка от критичната стойност -2,11 за двустратен тест, то нулевата хипотеза за разглеждания пример се отхвърля. Това се потвърждава и от вероятността P=0,044<0,05.  Изводът, който може да се направи, е: двете извадки произлизат от генерални съвкупности с различни средни, т.е. при двете методики се получават различни резултати.

Проверката на хипотези при две извадки с неравни дисперсии се извършва с инструмента t-Test: Two-Sample Assuming Unequal Variances, който също се намира в Data Analysis.

За илюстрация на случая на извадки с неравни дисперсии ще използваме следния

Пример 7. Психолог се интересува дали социалният статус се отразява върху резултатите от теста за тревожност на студентите от един университет. Резултатите, получени при този тест от студенти, чиито семейства попадат в две различни категории, са следните:
Нисък статус:  23, 11,  17,  16,  6,  14, 15,  19,  10;  Висок статус: 8,  6,  4,  12,  16,  17,  12,  10,  11, 13. 
Да се провери хипотезата, че студентите с по-висок социален статус показват по-ниска степен на тревожност при ниво на значимост 0,05. 

Тъй като двете извадки са извлечени от различни генерални съвкупности, е налице случай на две независими извадки с различни дисперсии на генералните съвкупности. За решаването на задачата са формулирани следните хипотези: . За намиране на тестовата статистика и на нейните критични стойности при предварително зададено ниво на значимост се прилага t-Test: Two-Sample Assuming Unequal Variances. Диалоговият прозорец на този тест е подобен на този от Пример 5. Аналогичен е и форматът на получените резултати. 

Извод: Тестовата статистика 1,72 не надвишава критичната стойност за едностранен тест 1,75, следователно нулевата хипотеза не се отхвърля. Това означава, че може да се приеме, че между нивото на тревожност на студентите от двете социални групи не съществува статистически значима разлика при ниво на значимост 0,05.

 Проверка на  хипотези относно разлика между средни на две зависими извадки


Характерно за зависимите (свързаните) извадки, е че се провеждат две измервания върху едни и същи обекти (лица) обикновено преди и след подлагането им на определено въздействие.


Проверка на хипотези за такива извадки ще илюстрираме със следния 

Пример 8. За да се изследва влиянието на алкохола върху времето на реакция, необходимо да се спре лек автомобил, е проведен експеримент, в който се сравнява времето на реакция на шофьор, когато не е употребил алкохол и в ситуация, когато е изпил 100 грама алкохол. Двадесет и осем души са подбрани случайно за участие в експеримента. Данните от измерванията при двете ситуации са представени в таблицата по-долу.  Да се провери хипотезата, че времето за реакция, необходимо да се спре лек автомобил при употреба на алкохол е по-високо от това, когато не е употребен алкохол:

Тъй като се изследват две различни състояния за едни и същи обекти, е налице случай на свързани извадки и е необходимо да се приложи инструментът t-Test: Paired Two Sample for Means на Data Analysis.

Както се вижда от резултатите тестовата статистика t Stat = -25,02 < -1,7 (критичната стойност при едностранен тест), поради което нулевата хипотеза се отхвърля в полза на алтернативната. Времето за реакция при употреба на алкохол е по-голямо от това без употреба на алкохол.


Представените критериите за проверка на хипотези се отнасят към параметричните критерии, които се ползват за сравняване на количествени променливи, които имат нормално разпределение.За проверка на хипотези при повече от две извадки се прилага F-критерият на Фишер (съответно One Way Anova и Repeated Measures Anova).

При  качествени променливи или количественипроменливи, които имат различно от нормалното разпределение, се прилагат непараметрични критерии за проверка на хипотези - съответно U-критерий на Ман Уитни (за две независими извадки) и T-критерий на Уилкоксон (за две зависими извадки).