Университет "Проф. д-р Асен Златаров" - Бургас             Димитрова, Ж., Р. Димитрова. Система за обучение по статистика и статистически изчисления с Microsoft Excel 

Извадкови разпределения

Ако от дадена генерална съвкупност извлечем всички възможни извадки с фиксиран обем n, то всяка от тях ще има своя средна. Ако броят на възможните извадки е k, ще получим k на брой средни 

т.е. получаваме едно ново разпределение, което се нарича извадково разпределение на средните. То има своя средна, своя дисперсия и стандартно отклонение. Стандартното отклонение на извадковото разпределение на средните се нарича стандартна грешка на средната

По аналогичен начин, освен извадково разпределение на средните, можем да получим и извадково разпределение на всяка друга статистика на извадката. Стандартното отклонение на извадковото разпределение се нарича стандартна грешка на съответната статистика. Стандартната грешка на една статистика е индикатор за качествата на статистиката като оценка на съответния параметър на генералната съвкупност. 

Тъй като на практика почти никога не е възможно да се пресметнат стойностите на статистиката за всички съществуващи извадки с даден обем (дори и за крайни генерални съвкупности с неголям обем), то обикновено извадковото разпределение на статистиката се получава по теоретичен път (т.е. имаме вероятностно, а не емпирично разпределение).

Може да се докаже, че с нарастването на n, извадковото разпределение на средните на простите случайни извадки с обем n, извлечени от генерална съвкупност със средна и ограничена дисперсия  има следните свойства: 

1. Разпределението на извадковите средни се стреми към нормалното разпределение. 

2. Средната на извадковото разпределение на средните е равна на .

3. Дисперсията на това разпределение е а стандартното отклонение е 

Горното твърдение е известно като централна гранична теорема. То дава информация за формата, разположението и разсейването на извадковото разпределение на средните. По-точно, ако генералната съвкупност е приблизително нормално разпределена, то и извадковото разпределение на средните е нормално, включително и за извадки с малък обем. Ако разпределението на генералната съвкупност съществено се различава от нормалното, то извадковото разпределение на средните е приблизително нормално за извадки с обем     За извадки с по-малък обем се прилага така нареченото t-разпределение или разпределение на Стюдънт

Тъй като на практика рядко е известна средната на генералната съвкупност, то чрез централната гранична теорема може да се оцени близостта на получената по извадката средна до истинската, но неизвестна средна на генералната съвкупност. Тази оценка се базира на стандартната грешка на средната, която съгласно последната част на теоремата е Очевидно, колкото по-голям е обемът на извадката, толкова по-малка е грешката при оценяването на средната на генералната съвкупност чрез средната на извадката (тази грешка се нарича извадкова грешка)

При неизвестно стандартно отклонение на генералната съвкупност, като оценка на се използва извадковото стандартно отклонение s и в този случай оценката на стандартната грешка на средната е където 

Отворете файла sample.xls, за да експериментирате генериране на извадки с произволен обем от генерална съвкупност с нормално разпределение, изчисляване на извадковата средна и на стандартната грешка на средната. Сравнете параметрите на генералната съвкупност със статистиките на извадките и на извадковото разпределение като увеличавате размера на извадката:

t-разпределение

При проверка на хипотези, когато е неизвестно и като оценка се използва извадковото стандартно отклонение s, нормалното разпределение не е подходящо като модел за описание на поведението на извадковата средна. Този факт е забеляззан в началото на 20-ти век от Уилям Госет, млад химик, работещ в пивоварна в Дъблин, Ирландия. Занимавайки се с контрола на качеството, той показва, че традиционните статистически процедури, които използват нормалното разпределение като извадково, не са подходящи за малки извадки. Той установява, че за малки извадки извадковото разпределение се отклонява съществено от нормалното и че с изменението на обема на извадките се променя и разпределението, т.е. имаме не едно разпределение, а фамилия от разпределения. Освен това, Госет стига до извода, че с нарастването на обема на извадките изучаваното разпределение се приближава към нормалното разпределение. По-късно, в сътрудничество с математици, е получена основната форма на това извадково разпределение и през 1908 г. Госет публикува резултатите под псевдонима Стюдънт. Тази фамилия извадкови разпределения днес е известна под името „разпределение на Стюдънт”, а също и като „t-разпределение”.


За всички извадки с фиксиран обем n съществува специфично t-разпределение, което е свързано с базовото понятие степени на свобода. Степените на свобода  могат да се дефинират като броя на стойностите на случайна величина, които могат свободно да варират, без да се променя дадена обща характеристика. Така степените на свобода се определят като броя на измерванията в извадката минус броя на ограниченията, наложени на тях. Например, ако стойностите в извадката са а средната й е , то само n - 1 от измерванията в извадката могат да варират, докато n-тата стойност трябва да бъде такава, че сумата от отклоненията от средната да бъде равна на нула, т.е.  Така в този случай имаме n стойности и едно ограничение и затова броят на степените на свобода е n - 1. В общия случай за извадка с обем n броят на степените на свобода е n - 1.

Характерно за t разпределението е, че подобно на нормалната крива, различните t-разпределения са симетрични и имат камбановидна форма, като при n > 120 те съвпадат с нормалната крива. Формата на кривата зависи само от един параметър – степените на свобода. Колкото (т.е. n) е по-малко, толкова повече t разпределението се отдалечава от нормалното, тъй като неговата крива е по-широка в основата. При увеличаване на n то се доближава до нормалното: