Университет "Проф. д-р Асен Златаров" - Бургас             Димитрова, Ж., Р. Димитрова. Система за обучение по статистика и статистически изчисления с Microsoft Excel  

Статистически заключения (Методи на статистическия извод)

Статистическият извод е процедура, която се използва от изследователя, за да се направи правдоподобен извод относно параметрите на генералната съвкупност на базата на информацията от извадката. Обикновено методите на статистическия извод се разделят на две групи, известни като оценяване и проверка на хипотези.

Оценяване на параметри на генералната съвкупност

Когато се интересуваме от параметрите на генералната съвкупност, изчисляваме съответните статистики на извадката. Поради извадковата неопределеност, дължаща се на непълната информация, истинската, но неизвестна стойност на параметъра не е точно равна на изчислената извадкова статистика. По-точно, изчислената по извадката стойност ще отразява съответния параметър на генералната съвкупност, но в рамките на някаква грешка. Определянето на подходящи за решаване на дадена задача статистики обикновено се означава с термина оценяване. Съществуват два подхода към статистическото оценяване на параметри, като вторият от тях е продължение на първия.

Първият подход се състои в оценяването на параметъра чрез отделна стойност и е известен като точково оценяване, а съответната оценка – като точкова оценка. Точковата оценка е отделна стойност, която се разглежда като „най-добра” оценка на параметъра на генералната съвкупност. Тази стойност обикновено е извадкова статистика, която съответства на параметъра, който се оценява. Така, като най-добра оценка на средната на генералната съвкупност приемаме средната на извадката. Независимо че това е най-добрата в определен смисъл оценка, тя не може да бъде разглеждана като точна стойност на параметъра. Смисълът на точковата оценка е не толкова в нейната конкретна стойност, колкото в използването на тази стойност в по-нататъшни изследвания. 

Вторият подход в статистическото оценяване се състои в използването на точковата оценка за намиране на множество от стойности, по-точно на интервал, за който с определен процент на увереност можем да твърдим, че съдържа истинската, но неизвестна стойност на параметъра. Определянето на този интервал се нарича интервално оценяване и се основава на вероятностен подход, а самият интервал се нарича доверителен интервал. Доверителните интервали се построяват така, че да съдържат най-правдоподобните стойности на разглеждания параметър. Когато търсим доверителен интервал за който и да е параметър на генералната съвкупност на базата на извадкова оценка, е необходима следната информация:

- наблюдавана статистика (точкова оценка);
                 - стандартна грешка на статистиката;
                 - критична стойност на доверителния интервал при дадено ниво на значимост.

Общата формула за определяне на доверителния интервал (ДИ) може да се запише по следния начин: 

Доверителен интервал = статистика ± критична стойност × стандартната грешка на статистиката

Във връзка с доверителния интервал се посочва степента на увереност, с която може да се твърди, че съответният доверителен интервал съдържа параметъра на генералната съвкупност. Тази степен на увереност се нарича ниво на доверие.  Нивото на доверие е допълнение до единица на нивото на значимост. Нивото на значимост () е вероятностното равнище, което е избрано от изследователя. В практиката най-често се използва ниво на доверие 95%  или 99%, като нивото на значимост е съответно 0,05 или 0,01.

За намиране на критичната стойност на доверителния интервал трябва да се има предвид извадковото разпределение на статистиката - при извадки с обем n >=30 се прилага нормално разпределение, а при n <30 - t-разпределение с n -1 степени на свобода. Самата критична стойност се взема от съответната таблица. 

Доверителни интервали на средната при нормално разпределение

 Доверителният интервал на средната на генералната съвкупност при нормално разпределение се определя по следния начин

,

където е средната на извадката, е критична стойност на доверителния интервал при ниво на значимост ,  е стандартното отклонение  и n е обемът на извадката. При нормално разпределение за ниво на доверие 95% критичната стойност е 1,96, а за ниво на доверие 99% критичната стойност е 2,576. Самата критична стойност се взема от съответната таблица.

се нарича максимална (маргинална) грешка на оценката.

Пример 1. Да се определи 95% ДИ за средната на генералната съвкупност, ако за извадка с обем n = 64 е известно, че 
Решение. Тъй като  n > 30, можем да разглеждаме извадковото разпределение на средната като нормално разпределение. 
95% ДИ = 26 ± 1,96 x 16 / 8, т.е. 95% ДИ = [22,08; 29,92]. Следователно, с увереност 95% можем да твърдим, че интервалът [22,08; 29,92] съдържа средната на генералната съвкупност.

За изчисляване на средната, стандартното отклонение и обема на извадката в Excel се използват функциите: AVERAGE, STDEV и COUNT. За определяне на критичната стойност при дадено ниво на доверие вместо статистическите таблици може да се използва функцията NORMSINV. Фунцията NORMSINV(вероятност) връща стойността z на стандартно нормално разпределение за дадената вероятност. Познаването на тази функция дава възможност лесно да се пресметнат критичните стойности за произволна стойност на нивото на значимост - в следващата тблица се приема, че първата клетка е A1:

Като се използва функцията NORMSINV лесно може да се създаде табличен модел (файлът confidence.xls), в който да се изчисляват критичните стойности, максималната грешка на оценката - Max Error =и доверителните интервали за различни стойности на . Потребителят може да променя всеки един от параметрите на модела - средната стойност, стандартното отклонение s, размера на извадката n (с нарастването на n намалява размера на стандартната грешка) и нивото на значимост и да проследи как се променят доверителните интервали.

Формули и резултати в модела:

Следващата диаграма илюстрира зависимостта между размера на ДИ и нивото на значимост, съответно критичната стойност:

Максималната грешка на оценката при нормално разпределение може лесно да бъде изчислена и чрез функцията

CONFIDENCE(;стандартно отклонение; n):

Доверителният интервал и средната стойност на извадката може да се представят графично чрез добавяне на индикатори на грешки в диаграмите. Следващата диаграма илюстрира доверителните интервали на средните резултати, получени по три учебни предмета.

 

Диаграмите, съдържащи индикатори за грешки, допринасят  за получаване на нагледна представа за максималната грешка на оценката. Подобни диаграми може да се използват за сравняване на средната и доверителните интервали за няколко изследвани признака на дадена извадка. Добавянето на индикатори за грешки в диаграмите става по следния начин:

1. Маркира се серията от данни в диаграмата.

2. В лентата Layout се активира Error Bars/ More Error Bars Options:



3. В прозореца Format Error Bars се активира Custom  и се избира бутонът Specify Value:

3. В прозореца Custom Error Bars чрез маркиране на областта от данни в таблицата се задават максималните грешки на оценките за всяка дисциплина съответно в Positive Error Value и в Negative Error Value.

Доверителни интервали на средната при t-разпределение

Когато размерът на извадкат е по-малък от 30, се използва t-разпределение с n-1 степени на свобода. В този случай за намиране на доверителния интервал на средната се използва формулата . Стойностите на  като функция на зададените вероятност и степени на свобода може да се получат в Excel чрез функцията TINV(;степени на свобода). По този начин при определянето на доверителни интервали при t-разпределение отпада необходимостта да се търсят критичните стойности от съответните таблици. За целта е достатъчно да се използва формулата

По-долу е представен табличен модел (файлът confidence.xls) за опредяне на 95% доверителен интервал на средната на резултатите (в брой точки) от тест по биология на 10 ученици. Резултатите от теста са дадени в областта A1:J1. 

Необходимо е да се отбележи, че за аргумент  функцията TINV връща критичната стойност за ниво на значимост - това означава, че във формулите не трябва  да се дели на две, както е при функцията NORMSINV. Например, за да се определи критичната стойност при ниво на значимост =0,01 и 6 степени на свобода, формулата ще бъде TINV(0,01;6).

Максималната грешка  може да се изчисли и чрез модула Descriptive Statistics: