Университет "Проф. д-р Асен Златаров" - Бургас             Димитрова, Ж., Р. Димитрова. Система за обучение по статистика и статистически изчисления с Microsoft Excel                            


Математическа статистика

Математическата статистика може да се определи като научна дисциплина, която има за цел да предоставя и прилага методи за обработка на данни, т.е. на резултати от наблюдения. Тъй като тези резултати са свързани със случайни явления, то по-общо може да се каже, че математическата статистика е наука, която изучава масовите явления със случаен характер, опирайки се на теорията на вероятностите.

Когато се правят изследвания чрез прилагането на готови модели и алгоритми, се говори накратко за статистика. В най-опростената си форма статистика означава събиране на данни за непосредствена употреба, най-често за държавни нужди. Такъв е и историческият аспект на възникването на науката статистика. Името й идва от латинската дума за държава – status (означава още положение, щат).

За основател на математическата статистика като наука се счита белгийският астроном А. Кетле (1796-1874), който организира Първия международен статистически конгрес през 1852 г. Днес статистическите методи намират широко приложение в почти всички области на човешката дейност – икономиката, техниката, медицината, естествените науки, управленските науки, а също и в социалните и поведенческите науки. Разработването и прилагането на специфични статистически методи за различните области е довело до обособяването на икономическа статистика, медицинска статистика, спортна статистика, психологическа статистика и др.


Основни понятия в статистиката

Двете централни понятия в статистиката са генерална съвкупност и извадка.

Генерална съвкупност

При всяко статистическо изследване се разглеждат един или няколко признака, свойствени за голяма група еднородни обекти (изделия, индивиди, събития). Множеството от стойностите на разглеждания признак за всички изследвани (интересуващи ни) обекти се нарича генерална съвкупност. В случаите, когато се изследва само една характеристика на обектите, обикновено множеството от измерванията се отъждествява със съвкупността на самите обекти и по този начин за генерална съвкупност се приема множеството на изследваните обекти. Така, по определение, генералната съвкупност се състои от всички индивиди, които са обект на дадено изследване. Например, генералната съвкупност може да се състои от всички жители на град Бургас; всички дванайсетокласници в страната; зрителската аудитория на определено телевизионно предаване и т.н. Основното, което отличава една генерална съвкупност от друга е това, че всичките й елементи отговарят на предварително зададено определение за принадлежност към тази именно генерална съвкупност. Обикновено генералната съвкупност се разглежда като множество с голям брой елементи, което може да бъде крайно или безкрайно. Ако множеството се състои от краен брой елементи, то техният брой се нарича обем на генералната съвкупност. Генерална съвкупност, която съдържа повече от 10000 елемента, на практика се разглежда като безкрайна.

Извадка

В по-голямата част от случаите не е възможно да се получат всички измервания (данни) за генералната съвкупност. Тогава основен метод за изучаване на генералната съвкупност е изследването на една нейна част с цел да се получи информация за цялата съвкупност. Такава част от генералната съвкупност се нарича извадка. По-точно, всяко подмножество на генералната съвкупност се нарича извадка

Получаването на достоверни изводи за генералната съвкупност по информацията от извадката е възможно само ако извадката се състои от типичните данни на генералната съвкупност, т.е. ако тя съдържа приблизително всички особености на генералната съвкупност и възпроизвежда нейната структура. Това свойство на извадката се нарича представителност или репрезентативност. Когато извадката не представя цялата генерална съвкупност, а само някакъв неин слой, говорим за изместване на извадката и в този случай имаме изместена извадка. Например, в социологическите изследвания често се наблюдава изместване на извадката, което се дължи на голям брой откази на отговор. Вземането на по-голяма извадка в тези случаи не подобрява качеството на извадката, а само повтаря грешката в по-голям мащаб.


Методи за получаване на случайни извадки

Получаването на представителна извадка се осигурява чрез случаен избор на нейните елементи. Това може да бъде направено по различни начини. Най-често използваните методи за получаване на случайни извадки са: прост случаен подбор, систематичен подбор, клъстерен подбор, стратифициран подбор.

Чрез простия случаен подбор се получава проста случайна извадка. Това е вероятностна извадка, която отговаря на следните две условия:

  1. Всички елементи на генералната съвкупност (или всички комбинации от елементи с фиксиран обем) имат равни вероятности да попаднат в извадката. (Условие за равните вероятности.)
  2. Изборът на всеки отделен елемент не оказва влияние върху вероятността за избор на всеки друг елемент. (Условие за независимост.)

Простата случайна извадка може да се реализира чрез връщане и без връщане. Получаването на прости случайни извадки при малки генерални съвкупности се осъществява чрез изтеглянето на елементи от генералната съвкупност така, както се избират топки от урна. При големи генерални съвкупности извадките се получават чрез случайни експерименти, които се провеждат на компютър. 

Друга възможна процедура за получаване на вероятностни извадки, която се използва често в практиката и в научните изследвания, е систематичният подбор. Нейното прилагане предполага да е налице пълен списък на елементите на генералната съвкупност. При систематичния подбор в извадката попада всеки k-ти елемент на генералната съвкупност, като се започне със случайно избран елемент с номер между 1 и k. Стъпката на подбора се определя в зависимост от обема на генералната съвкупност и обема на извадката. Например, ако генералната съвкупност се състои от 20 000 елемента и е необходима извадка с обем 500, то стъпката е 20 000 : 500 = 40. За стартов номер може да се избере всяко число между 1 и 40. Така, ако стартовият номер е 12, извадката ще съдържа елементите с номера 12, 52, 92, 132, 172 и т.н. Ако за стъпката се получи дробно число, то се закръглява в зависимост от конкретния случай. Когато елементите от генералната съвкупност са разположени в списъка по случаен начин, систематичната извадка е еквивалентна на простата случайна извадка. Но ако елементите са подредени по някакъв критерий, е възможно в извадката да попаднат елементи, които не представляват цялата генерална съвкупност, а само определена нейна част и в такъв случай се наблюдава изместване на извадката. Тази ситуация се нарича зацикляне. Напимер, нека генералната съвкупност се състои от всички семейства с двама родители и две деца и в списъка те са подредени така: баща, майка, първо дете, второ дете. Тогава при стъпка 16 и стартов номер 5, в извадката ще попадат само бащи и затова тази извадка е изместена

Клъстерен (гнездови) подбор се използва, когато е налице струпване на групи от елементи на генералната съвкупност в клъстери (гнезда). В този случай по случаен начин се избират определен брой клъстери, след което се изследват всички елементи на тези клъстери или случайно избрани техни елементи. Например, ако се прави изследване за знанията по математика на десетокласниците в страната, не е възможно да се състави списък на всички ученици от десети клас и затова не може да се използва прост случаен подбор или систематичен подбор. Ако разполагаме със списък на класовете от всички училища, можем да изберем по случаен начин нужния брой класове и да изследваме всички ученици от тези класове. При това не се изисква отделните класове да имат равен брой ученици. Тази схема се нарича едностъпков клъстерен подбор, тъй като е необходима само една стъпка, за да стигнем до източника на информация. Ако разполагаме само със списък на училищата, се налага да приложим двустъпкова процедура – на първата стъпка избираме по случаен начин училище, а на втората – пак по случаен начин избираме клас от съответното училище, който да изследваме. В зависимост от структурата на генералната съвкупност може да се използва и многостъпков клъстерен подбор. 

Стратифициран подбор се прилага в случаите, когато генералната съвкупност не е хомогенна и може да се разглежда като съставена от няколко подмножества от подобни елементи. Тези подмножества се наричат страти, а процесът на разбиване на генералната съвкупност на две или повече страти се нарича стратифициране. (Например, големи, средни, малки предприятия; живеещи в село, малък град, областен град, в столицата и др.) Определянето на стратите се основава на информация за генералната съвкупност, която е известна преди получаването на извадката. За всяка старта може да се използва различна процедура за случаен подбор на елементи, които да попаднат в извадката. Но броят на избраните от стратата елементи трябва да се отнася към броя на всички елементи в извадката така, както се отнася обемът на стратата към обема на генералната съвкупност. Например, ако генералната съвкупност има обем N, разглежданата страта е с обем N1, а обемите на извадката и съответната подизвадка са n и n1, то n1:n = N1:N.

Пример. Генерална съвкупност е стратифицирана според местоживеенето на изследваните лица. Налице са четири страти: живеещи в София – 14%, в областен град – 28%, в малък град – 25%, в село – 33%. Обемът на извадката е 1000. Тогава извадката ще съдържа 140 души от София, 280 от областни градове, 250 от малки градове и 330 от села.

Чрез стратифицирания план може да се получи по-добра представа за генералната съвкупност в сравнение с подобна по големина проста случайна извадка. Това се дължи на факта, че обектите в отделната страта са подобни помежду си.

Освен да бъде представителна, една извадка трябва да бъде достоверна. Това свойство е свързано със степента на истинност на събраната информация, т.е. доколко верни са измерванията или отговорите на изследваните лица. 

Друг фактор, който влияе върху качеството на извадката, е нейният обем. Обемът на извадката е свързан с точността на изводите, които се правят за генералната съвкупност. Колкото по-малък е обемът, толкова по-неточна е оценката. Обратното, обаче, не винаги е вярно. Възможно е една извадка с голям обем да е непредставителна и голямата точност на оценките да е безмислена. Между трите характеристики на извадката – представителност, достоверност, обем – съществува връзка, но тя не е директна. Подходяща илюстрация на казаното по-горе е следващият добре известен в социологическите среди пример за предсказване на изхода от президентските избори в САЩ през 1936 г., в които претенденти за поста президент са били Ф.Д. Рузвелт и А.М. Ландън. 

Знаменито по своя неуспех е допитването, проведено от американското списание „Литературен преглед”. За генерална съвкупност редакцията използвала абонатите на телефони, включени в телефонните указатели. На избрани по случаен начин 4 000 000 адреса, тя изпратила картички с въпроси за отношението към кандидатите за президент. След като изразходвало големи суми за разпращането на картичките и обработката на получените мнения, списанието обявило, че за президент ще бъде избран Ландън и то с голяма преднина в гласовете. Резултатът от изборите, обаче, се оказал противоположен на тази прогноза. Неуспехът на проучването се дължи на две основни грешки. Първата от тях е, че въз основа на телефонните указатели не може да се състави репрезентативна извадка от населението на страната дори за това, че абонатите са главно глави на заможни семейства. Втората грешка се състои в това, че не е отчетено, че отговори на въпросите са изпратили не всички анкетирани, а предимно тези, които са привикнали да отговарят на писма, т.е. представителите на деловия свят, за които е било известно, че поддържат Ландън. Така използваната извадка се оказва изместена и направената по нея прогноза е неточна. 

По същото време социолозите Дж. Галъп и Е. Роупър правилно предсказали победата на Рузвелт, използвайки само 4000 анкети. Причината за този успех е не само в правилното съставяне на извадката. Двамата социолози отчели, че обществото се разпада на социални групи, които са сравнително еднородни по отношението си към кандидатите за президент. Затова дори малка извадка от слоя има същия резултат на точност. А като се използват резултатите по слоеве, може да се характеризира обществото като цяло. По този начин използването на сравнително малка по обем представителна стратифицирана извадка дава възможност да се получи точна прогноза.


Генериране на случайни извадки в Excel

Генерирането на служи за  на случайни извадки от област с данни в работния лист, която се приема за генерална съвкупност се извършва с инструмента на Excel Sampling, съдържащ се в Data Analysis . Прозорецът Data Analysis се отваря чрез  Data/Data Analysis:


Ако Data Analysis не е инсталиран, то е необходимо чрез File/Options да се отвори прозорецът Excel Options, в който се избира Add-Ins. Активира се бутонът Go и се поставя отметка пред Analysis ToolPak.


След активиране на инструмента Sampling се отваря съответният прозорец:

В него се задават параметрите за получаване на извадката: 

- в Input Range - областта от клетки в работния лист, съдържаща данните за генералната съвкупност ;

- в Sampling Method - методът за получаване на случайна извадка: Periodic - систематичен подбор със  стъпка, зададена в Period

                                                                                                                  Random - случаен подбор, с брой елементи на извадката, въвдени в Number of Samples;

- в Output  Options - къде да се покаже генерираната извадка - в същия работен лист, в който са данните (Output Range),  в нов работен лист (New WorkSheet Ply), в нова работна книга (New WorkBook):



Параметри и статистики

Характеристиките (мерките) на генералната съвкупност се наричат параметри. Съответните характеристики на извадката се наричат статистики. За да се различават характеристиките, които се отнасят за генералната съвкупност, от тези , които се отнасят за извадката, се използват различни означения. Прието е с малки букви от гръцката азбука да се означават параметрите на генералната съвкупност, а с малки букви от латинската азбука – съответните извадкови статистики.



Основни задачи на статистиката

В най-общ план могат да се формулират две основни задачи на статистиката. Първата от тях е свързана с представянето на получените от конкретното наблюдение данни така, че да се установи характерът на измерваните величини. Тя се разглежда от така наречената описателна статистика. Описателните методи служат за обобщено представяне (организиране) на данните в табличен, графичен или аналитичен вид. 

Най-важната цел на всички статистически изследвания е от особените съотношения в конкретна извадка да се достигне да обобщени изводи за генералната съвкупност. Затова втората основна задача на статистиката се състои в анализ на данните за получаване на съответни изводи и заключения. Към нея се причисляват следните задачи:

1. Оценяване на параметри на генералната съвкупност. По данните от извадката се прави оценка на неизвестни параметри на изследваната случайна променлива за цялата генерална съвкупност. В някои случаи се прави оценка на параметри, участващи в явния вид на функцията на разпределение на променливата, като се приема, че аналитичният вид на функцията е предварително известен. При това оценките могат да бъдат точкови или интервални. В първия случай за всеки неизвестен параметър се предлага число, получено въз основа на резултатите от наблюденията. Във втория случай, вместо една стойност, се предлага интервал, за който се твърди, че с известна вероятност съдържа истинската стойност на параметъра.

2. Проверка на хипотези. Това е широк клас от задачи, съпътстващи почти всяко статистическо изследване. След като е направена оценка на неизвестния параметър, се проверява хипотеза относно стойността на параметъра и се оценяват качествата на тази стойност по изчислената статистика. Към този клас задачи се отнасят задачите за проверка на това дали наблюдаваните две случайни променливи имат равни средни стойности (или дисперсии); дали разпределението на изследваната променлива е от предполагаемия вид (нормално, експоненциално и т.н.) и други. 

3. Установяване на статистическа зависимост между събития и величини. Към този клас се причисляват задачите, свързани с определяне на степента на зависимост между две случайни променливи; установяване на количествената зависимост между две променливи, при което може да е известна функционалната форма, но да са неизвестни някои коефициенти в нея или формата е неизвестна и се търси заедно с параметрите, чрез които се записва и т.н. Когато една случайна променлива зависи от няколко други променливи (фактори), е необходимо тези фактори да се класифицират по степента на своето влияние и да се знае кои от тях влияят благоприятно върху разглежданата променлива и кои не. Решаването на тези задачи е довело до развитието на такива раздели от статистиката като корелационен анализ, регресионен анализ, дисперсионен анализ, факторен анализ и др.


Скали на измерване

Всяко статистическо изследване е свързано с измерването на една или няколко характеристики на изследваните обекти. Затова важна част от експерименталната работа е познаването и коректното използване на скáлите, по които се извършват измерванията. Изборът на подходящи статистически методи за обработка на емпиричните данни зависи от вида на използваните измерителни скали и това влияе върху достоверността на получаваните изводи. 

В най-широк смисъл под „измерване” се разбира процесът на съпоставяне на едно число на разглеждана характеристика по предварително определено правило. В голяма част от случаите резултатът от измерването има конкретен количествен смисъл – височина, брой точки, оценка и т.н. Съществуват, обаче, ситуации, в които не можем да получим числова стойност, а само да отбележим дали дадено свойство е налице или отсъства. В тези случаи измерването се свежда до установяване на наличие или отсъствие на определен признак у обекта на изследване. Променливите, които могат да бъдат количествено измерени, се наричат количествени променливи, а тези, които не могат – качествени променливи. 

Разделянето на скалите на измерване се извършва в съответствие със степента на точност на измерването, т.е. в зависимост от количеството информация, което те дават. Например, ако за един човек кажем, че е висок, това не е равнозначно да кажем, че той има ръст 1,90 м. При подходяща скала можем много точно да измерим ръста на един човек, сравнително точно да измерим нивото му на интелигентност, но значително по-трудно е да измерим точно степента на неговата тревожност. Измерванията на тези характеристики, както и на всички останали, могат да бъдат класифицирани в съответствие с типа или йерархията на измерителната скала. Качествените променливи се измерват в номинална и (или) ординална скала,а количествените - в интервална и (или) относителна скала (скала на отношенията). Първите две скали се наричат неметрични, а вторите две – метрични скали.

Номинална скала

Измерванията по тази скала се свеждат до отчитане на наличието или отсъствието на предварително определен признак в наблюдаваните обекти. Номинално измерване е процесът на класификация на обектите във взаимноизключващи се класове (категории) в съответствие с разглеждания признак. Например, класификацията на хората според цвета на очите им; според кръвната им група и т.н. В номиналната скала няма степени и градации. Има само различни изходи в зависимост от разглеждания признак, като всеки обект може да се отнесе към един и само един клас. Сравнения вътре в класовете и между класовете не са възможни. В номинална скала са всички случаи на избиране на едната от две взаимноизключващи се възможности, например, от вида „да – не”; „добро – лошо”; „предпочитано – непредпочитано" и др. При тях има само два възможни изхода, които определят двете категории на съответната скала. Такива скали се наричат дихотомни (двоични, бинарни). Променливите, измервани по тези скали, се наричат дихотомни променливи. Такива са, например, променливите пол (мъж, жена), здравен статус (здрав, болен) и др. Класовете в номиналната скала могат да се означават (кодират) с различни символи. Например, двата класа на променливата пол могат да се означат съответно „мъж, жена” или „1, 2”. Структурата на скалата няма да се промени, ако извършим еднозначна замяна на означенията. В случая, когато класовете са означени с цифри, то тези цифри са само кодове и между числата, записани с тях, не могат да се извършват сравнения и аритметични операции. 

Ординална скала 

В ординалната скала се извършва подреждане на наблюдаваните обекти според изменението (нарастване или намаляване) на интензитета на разглеждания признак. Подреждането може да бъде възходящо (по нарастване) или низходящо (по намаляване на интензитета на признака). Обикновено подредените обекти се кодират с числа, които определят мястото им в подреждането. Както и в номиналната скала, тези числа нямат смисъла на количествена мярка. Разстояния между класовете и между отделните обекти не могат да се изчисляват. Ординална скала се прилага за класиране на кандидатите в конкурс за красота; за класиране на участниците в спортни състезания (първо, второ и трето място); за най-добър продукт от определен вид и др. 

Интервална скала

В интервалната скала кодовите числа, които се съпоставят на обектите, изразяват интензивността на наблюдаваната характеристика и затова те се наричат мерни числа. Всяка интервална скала притежава единица на измерване и начална точка (нула) на отчитането, които са условни. Мерните числа могат да бъдат положителни, отрицателни или с нулева стойност, цели или дробни. Нулата в тази скала не означава отсъствие на измервания признак. Например, при измерване на температурата по скалата на Целзий, нулева е температурата на топене на леда при нормално налягане. Но 0oС не означава липса на температура. Наличието на единица на измерването определя едно важно свойство на интервалната скала – на равни разлики между различни нива на скалата отговарят равни разлики в интензитета на измерваната характеристика. Освен това, чрез използване на единицата на измерване може да бъде определено разстоянието между всеки две нива от скалата. 

Относителна скала 

Тази скала притежава свойствата на интервалната, но при нея нулата не е условна, а означава пълно отсъствие на измервания признак. Например, при измерване на дължини, 0 cm = 0 m = 0 mm. Освен това, отношението на всеки две стойности от скалата не зависи от единицата на измерване. Това свойство дава възможност не само да се сравняват разлики между обектите, но и да се разглеждат отношения между тях. Например, разликата между 30 kg и 40 kg е същата, както между 80 kg и 90 kg. Но освен това, обект, който тежи 60 kg е два пъти по-тежък от обект с тегло 30 kg. От друга страна, ако сравним с интервалната скала, 40o-30o = 20o-10o, но не можем да твърдим, че обект с температура 40o е два пъти по-горещ от обект с температура 20o. В относителна скала се измерват дължина, ръст, тегло, време за реакции.

В практиката на психолого-педагогическите измервания най-често се срещат данни от номинална или ординална скала. В по-редки случаи се получават данни от интервална скала (резултати от тестове, оценки) или от относителна скала (измерване на време за изпълнение или реакции, физиологични показатели и др.).

Преминаването от една скала в друга в реда относителна – интервална – ординална – номинална е разрешима задача. Преобразуването в обратна посока не винаги е възможно.