Мерки на централната тенденция

За да се опише едно разпределение, е необходимо да има информация за неговата форма, за разположението му върху измерителната скала и за разсейването на измерванията от дадена (обикновено фиксирана) точка.

Информация за формата на разпределението се получава от графичното представяне на разпределението – полигон или хистограма. 

Информация за разположението върху измерителната скала дават така наречените мерки на централната тенденция. Те описват типичното, най-характерното за разпределението и на тях може да се гледа като на някакъв вид средни стойности, тъй като всички те отразяват тенденцията в разположението на центъра на честотното разпределение. Най-често използваните мерки на централната тенденция са: средна, медиана, мода

Във връзка с разсейването на стойностите на разглежданата променлива най-често използваните мерки на разсейване са: размах, дисперсия и стандартно отклонение

Мерките на централната тенденция са точки върху скалата на измерване на променливата.


Мода

Модата M0 е най-елементарният показател на централната тенденция. Тя се определя като стойността с най-голяма честота в разпределението и се намира непосредствено чрез броене. При групирани данни за мода се приема средата на класа с най-голяма честота. Когато две несъседни стойности (или два несъседни класа при групирани данни) се наблюдават по-често от останалите стойности (или класове), то разпределението се нарича бимодално:

Съществуват и многомодални разпределения, а също и разпределения без мода. Например, ако вариационният ред на случайна променлива е 1, 2, 3, 4, 5, 6, то тази променлива няма мода. Ако две или повече съседни стойности се срещат еднакво често, с честота, по-голяма от тази на останалите, то модата е средното аритметично на тези стойности.

Модата е твърде груба мярка на централната тенденция. Тя дава малко информация и единственото, което показва, е стойността с най-голяма честота. Не участва в изчисления, използва се главно при голям брой измервания и то във връзка с другите мерки на централната тенденция. 

Пример 1. Да се определи модата за следните вариационни редове: 

а) 1, 2, 3, 3, 3, 4, 4, 6.                                            Отг.  M0=3.

б) 1, 2, 2, 3, 4, 5, 5, 6.                                            Отг. M0=2, M0=5.

в). 1, 3, 5, 10, 12, 14, 20                                         Отг. Не съществува мода.

      За изчисляването на модата в Excel се използва статистическата функция MODE.
      При разпределения с повече от една мода Excel връща само първата мода.


Медиана

Медианата е втората мярка на централната тенденция. Дефинира се като стойността, която се намира в средата на статистическия ред, т.е. тя е онази стойност, за която половината от измерванията са по-малки от нея, а другата половина са по-големи от нея. Когато стойностите от вариационния ред са различни помежду си, ако броят n на измерванията е нечетен, , а при четен брой 

При негрупирани данни с повтарящи се стойности и при групирани данни, медианата се изчислява по формулата

където: 

- m – номер на класа, в който се намира медианата;

- u – точна долна граница на този клас;

- n/2 – показва къде се намира медианата;

- fi  – честота на i-тия предмедианен клас;

- fm  – честота на медианния клас;

- h – ширина на класовете.

Пример. 2. Да се определи медианата за следните вариационни редове:

а) 1, 2, 3, 4, 5, 6,7.                                                   Отг. Me=4.

б) 1, 2, 3, 4, 5, 6,7, 8.                                               Отг. Me=4,5=(4+5 )/2.

в) 1, 2, 3, 3, 3, 4, 5, 6.                                               Отг. В случая се повтаря стойността 3, която не представлява медианата. Медианата трябва се изчисли въз основа на формулата за повтарящи се стойности: n=8  n/2=4, u=2,5 (точните граници на 3 са 2,5 и 3,5), fm= 3, h=1:

При изчисляването на медианата не участват всички стойности на променливата и затова тази мярка не се влияе от екстремални стойности, т.е. от стойности, които силно се различават от останалите

За изчисляването на медианата в Excel се използва статистическата функция MEDIAN.

Средна стойност

Средната стойност (средната) се дефинира като средно аритметично на всички измервания на разглежданата променлива:

Ако стойността xi има честота fi то може да се пресметне и по формулата

като  В този случай говорим за формула за средната с тегла.

Последната формула се прилага и за групирани данни, като в този случай е xi средата на i-тия клас.

Средната притежава следните свойства: 

1. Сумата на всички отклонения на измерванията от средната е равна на нула, т.е.

2. Сумата на квадратите на всички отклонения на измерванията от средната е по-малка от сумата на квадратите на отклоненията на измерванията от всяка стойност в извадката, т.е.

за всяка стойност от извадката.

Средната е обобщаваща характеристика за измерванията на променливата и се възприема като типичен или представителен резултат за нейните стойности. Тъй като при пресмятането й участват всички измервания, тя е чувствителна към всяка промяна на стойностите. Наличието на екстремални стойности в извадката оказва влияние върху средната и в този случай тя може да не представя най-характерния резултат в разпределението.
Средната на генералната съвкупност се означава с .

За изчисляването на средната в Excel се използва статистическата функция AVERAGE.

Ако се търси средната на k на брой извадки, се използва формулата за претеглена средна

където:

-– средна на i-тата извадка;

- ni – обем на i-тата извадка; 

- n – общ брой на измерванията 

Сравнение между мерките на централната тенденция

Изборът на подходяща мярка на централната тенденция зависи от скалата на измерване.

Ако данните са номинални, то единствената подходяща мярка е модата. 

За ординални данни се използват модата и медианата. 

За метрични данни са подходящи и трите мерки. При анализа на метрични данни обикновено се дават поне две мерки – най-често средната и медианата. 

Вторият критерий за избора на мярка на централната тенденция е по-нататъшното използване на тази мярка. Ако целта е описателна, то трябва да се използва мярката, която най-добре описва данните. При достатъчно голям обем на извадката, обикновено най-подходяща мярка е средната. Но не и в случаите на разпределения с много върхове, с отворени класове или при наличието на екстремални стойности. Медианата се използва при извадки с малък обем, при разпределения с отворени класове и при силно асиметрични разпределения. Модата е подходяща за характеризиране на разпределения с много върхове. 

Ако целта е да се направят изводи за генералната съвкупност на базата на информацията за извадката, то изборът зависи от методите на статистическия извод, които ще се прилагат. В тези случаи се предпочита средната. Тъй като средната предполага метричен тип скала, тя може да участва в математически изчисления, които са неприложими за модата и медианата. 

Сравнение между трите мерки може да се направи и визуално, като се сравнят по отношение на позициите им върху графиката на честотното разпределение. Ако разпределението е симетрично и едномодално, то :

Когато разпределението е симетрично, но бимодално, то като модите са две:

При ляво изтеглено разпределение Тогава и затова разпределението се нарича отрицателно асиметрично.

Дясно изтегленото разпределение е положително асиметрично, тъй като при него  и 

Медианата и модата не се влияят от екстремални измервания в разпределението, докато средната е много чувствителна към такива стойности. Следователно, когато разпределението е асиметрично, най-добре е да се покажат и трите мерки. Това ще даде по-пълно описание на разпределението, вместо всяка мярка поотделно.

Мерки на разсейването

След формата и централната тенденция, третата основна характеристика на всяко разпределение е разпръснатостта или разсейването на измерванията в него. Докато мерките на централната тенденция са точки, то мерките на разсейването са интервали или разстояния върху измерителната скала, които показват как стойностите са разсеяни или концентрирани около средната. 

Най-често използваните мерки на разсейването са: размах, дисперсия и стандартно отклонение. За рангови данни е приложима само първата мярка, а за метрични данни се използват и трите мерки. 

Размах

Размахът е най-простата мярка на разсейването. Определя се като разликата между най-голямата и най-малката стойност в извадката и описва диапазона, в който се намират стойностите. Предимството на размаха е, че се изчислява много лесно. Като недостатък може да се посочи това, че при пресмятането му не участват всички стойности от разпределението, а само двете крайни стойности. С нарастването на броя на измерванията размахът се променя, като увеличава стойността си. Ето защо размахът е неустойчива мярка и не дава адекватно описание на разсейването. Следващият Пример 1 илюстрира това.

Пример 1. Дадени са две множества от данни А и В: А = {10, 11, 13, 15, 15, 17, 19, 20}, В = {10, 14, 14, 15, 15, 15, 17, 20} (данните от двете множества са измерени в едни и същи мерни единици). Да се пресметнат средната стойност, медианата, модата и размаха за всяко едно от двете множества. Може ли чрез размаха да се определи в кое от множествата А и В разсейването на стойностите е по-голямо? 
              Решение. В следващата таблица са представени резултатите за четирите обобщени числови характеристики за двете множества:

Двете множества А и В имат един и същ размах 10, дори и еднакви мерки на централната тенденция 15, но стойностите в тях се различават. Това се вижда и от диаграмите на честотното разпределение. Следователно размахът не може да се използва за сравнение на разсейването на двете множества.

За размаха се използват още и наименованията ширина на вариацията и размах на вариацията. 

За изчисляването на размаха в Excel се използват функциите MAX и MIN:   Размах = MAX(област с данни) - MIN(област с данни) .

Дисперсия и стандартно отклонение

За измерване на разсейването на стойностите в дадено разпределение се използват дисперсията и стандартното отклонение . Дисперсията (за извадката s2) се дефинира като средно аритметично на квадратите на отклоненията на измерванията от тяхната средна  (съответно ). Така дисперсията на генерална съвкупност с обем N е

а дисперсията на извадка с обем n е

Ако искаме да получим дисперсията на дадена извадка, то използваме последната формула за s2. Но ако целта ни е по извадката да получим оценка за дисперсията на генералната съвкупност, то тази формула дава изместена оценка за . Формулата, по която се получава неизместена оценка за , е

Ако стойността xi има честота fi, то за пресмятане на дисперсията може да се използва формулата с тегла

където k е броят на различните стойности на променливата.

За изчисляването на дисперсията на извадката в Excel се използва функцията VAR, а за изчисляване на дисперсията на генералната съвкупност -  VARP.

Независимо че дисперсията е надеждна мярка на разсейването, фактът, че нейната размерност е квадрат на размерността на оригиналните измервания, може да доведе до трудности в съдържателната интерпретация на тази мярка. В този случай е по-добре да се използва друга мярка на разсейването – стандартно отклонение. Стандартното отклонение (съответно s) се пресмята като квадратен корен от дисперсията:

За изчисляването на стандартното отклонение на извадката в Excel се използва функцията STDEV (неизместнена оценка), а за изчисляване на стандартното отклонение на генералната съвкупност -  STDEVP.

Стандартното отклонение е мярка за отклоненията на стойностите на разпределението от тяхната средна. От формулите се вижда, че при пресмятането на дисперсията и на стандартното отклонение участват всички стойности на разпределението. Затова двете мерки се влияят от екстремални стойности. По-точно, във формулите се съдържат квадратите на отклоненията (разликите) на измерванията спрямо средната им стойност, представляваща център на разпределението. Ето защо колкото по-големи са тези отклонения, т.е. колкото по-голямо е разсейването на данните около тяхната средна, толкова по-големи ще са дисперсията и стандартното отклонение. 

Важно е да се отбележи, че стандартното отклонение притежава още едно предимство – то се получава в същите мерни единици, в които са измерени стойностите от разпределението. Това позволява да се определи колко далече, т.е. на колко стандартни отклонения от средната стойност се намира всяка една стойност. 

Пример 2. В следващата таблица са представени резултатите от тест по биология (брой точки) на 10 ученика. Според предварителния критерий тези ученици, чийто резултат е с повече от 2 стандартни отклонения под средната стойност, не са издържали теста. Кои от учениците не са издържали теста? 

Решение. Намираме средната стойност и стандартното отклонение, след което пресмятаме критерия: 65 - 2.12,45 = 40,10. Всеки резултат, по-малък от 40,10 точки, е под средната с повече от 2 стандартни отклонения, което е илюстрирано на скалата.

Стандартното отклонение се използва при интерпретацията на стойностите, които отстоят на разстояние едно стандартно отклонение вляво и вдясно от средната. Ако разглежданото разпределение е нормално, то в интервала се намират 68,26% от всички измервания. Макар че повечето разпределения на практика се отклоняват в някаква степен от нормалното, то може да се каже, че приблизително 2/3 от стойностите в повечето разпределения попадат в този интервал.

Тъй като дисперсията и стандартното отклонение зависят от скалата на измерване, то те не могат да се използват за сравняване на разсейването на променливи, които се измерват в различни скали. За тази цел се използва коефициент на вариация, който е безразмерна величина и се изразява в проценти. Означава се с CV и се пресмята по формулите

съответно за генерална съвкупност и за извадка. 

Като недостатък на коефициента на вариация може да се посочи това, че той е приложим само когато средната е положително число. Освен това, при липса на информация за средната и за стандартното отклонение интерпретирането му може да доведе до неправилни изводи.

Мерки на асиметрия

За оценяване на асиметрията на дадено разпределение се използва коефициент на асиметрия. Пресмята се по следните формули:

В Excel изчисляването на степента на асиметрия на честотното разпределение се извършва с функията SKEW.

Ако резултатът от функцията е нула, то разпределението е симетрично.

Ако резултатът от функцията е положително число, то е налице дясна асиметрия (положителна  асиметрия). 

Ако резултатът от функцията е отрицателно число, то е налице лява асиметрия (отрицателна асиметрия).

Мерки на ексцес

Ексцесът е мярка, която определя степента на издигнатост или сплеснатост на разпределението спрямо нормалната крива. Той се пресмята по формулата

При E>0 върхът на емпиричното разпределение е над върха на нормалното, а при E<0 то е под върха на нормалното разпределение.

В Excel изчисляването на степента на асиметрия на честотното разпределение се извършва с функията KURT.

Ако резултатът от функцията е положителна число, то разпределението е със сравнително по-висока издигнатост от нормалното разпределение.

Ако резултатът от функцията е отрицателно число, то разпределението е сравнително по-плоско от нормалното разпределение. 

Следващите две честотни диаграми показват, че разсейването на данните в първата диаграма, т.е. стандартното отклонение е по-малко в сравнение с това за данните от втората диаграма.

Модул Descriptive Statistics

Модулът Descriptive Statistics притежава удобен потребителски интерфейс и позволява без да се въвеждат каквито и да е формули в работния лист да се получат резултати, с които се описва разпределението. Модулът се извиква с Data/Data Analysis. Необходимо е в Input Range да се зададе областта с данните, в Output Range да се посочи къде да се получат резултатите, както и да се включи полето Summary Statistics: