Университет "Проф. д-р Асен Златаров" - Бургас             Димитрова, Ж., Р. Димитрова. Система за обучение по статистика и статистически изчисления с Microsoft Excel 


Корелационен анализ

 Една от основните задачи на статистиката е изследването на връзката между случайни променливи. Корелационният анализ се прилага за описание на силата и посоката на зависимост между променливи величини.
                  Коефициентите на корелация са статистическата мярка, представяща зависимостта между две случайни променливи. Според измерителната скала, в която са изразени променливите величини, се ползват различни коефициенти на корелация.

Сила на зависимостта

Абсолютната стойност на коефициентите на корелация е в границите от 0 до 1. Интерпретацията на стойността на корелационния коефициент (силата на зависимост) е до известна степен произволна. Тя зависи от свойствата на изучаваното явление и обикновено се извършва в контекста на корелиращите се променливи. Независимо от това, съществуват някои емпирични правила, които могат да се използват при интерпретацията на коефициента на корелация.

   При стойност 0 липсва зависимост
   До 0,3 – зависимостта е слаба
   От 0,3 до 0,5 – умерена зависимост
   От 0,5 до 0,7 – значителна зависимост
   От 0,7 до 0,9 – силна зависимост
   Над 0,9 – много силна зависимост
   При 1 – зависимостта е функционална.

Посока на зависимостта

Ако коефициентът на корелация е положително число, зависимостта е положителна, възходяща на по-големи стойности на едната променлива, съответстват по-големи стойности на другата променлива.
                  Ако коефициентът на корелация е отрицателно число, зависимостта е отрицателна, низходяща  на по-големи стойности на едната променлива съответстват по-ниски стойности на другата променлива.


Коефициент на обикновена линейна корелация на Пирсън (r)

Фундаменталното предположение, което стои в основата на корелационен коефициент, въведен от английския статистик Карл Пирсън е, че двете променливи са линейно свързани.

За да се определи корелационният коефициент, трябва да са налице подвойкови измервания на двете променливи върху едно и също множество от обекти. Корелационният коефициент на Пирсън не може да бъде изчислен, ако по едната променлива са измерени обекти от една група, а по втората – от друга група, различна от първата. Освен това, корелационният коефициент е мярка за взаимовръзката между двете променливи само за разглежданата група обекти. Ако този коефициент се използва при нелинейна връзка, ще се получи занижена стойност на връзката. Затова преди да се изчисли и анализира коефициентът на корелация, би следвало да се построи и анализира диаграмата на разсейването. Тя ще покаже нагледно формата  и посоката на връзката между двете променливи.

Коефициентът на корелация на Пирсън изисква двете променливи да бъдат измерени в метрична скала. За променливи, измерени в номинална или рангова скала корелационният коефициент се пресмята по други начини, които са производни на формулата за Пирсъновия корелационен коефициент. Броят на измерванията, използвани за определяне на корелационния коефициент, не оказва влияние върху стойността на коефициента (с изключение на n = 2, когато двете точки определят права и в този случай r = |1|).

Коефициентът на линейна корелация между променливите Х и У за данни от извадка се получава по формулата:

 


Изчисляването на коефициента на корелация в Excel може да стане по два начина:

      - чрез статистическата функция CORREL:

       - чрез инструмента Correlation на Data/Data analysis:



Статистическа значимост на коефициента на Пирсън (r)

Изчисленият по данни от извадката коефициент (r) е точкова оценка на параметъра на съвкупността, който се бележи с .
                 Статистическата значимост на коефициента на Пирсън се проверява като изчисленият извадков коефициент се сравнява с критичните стойности на коефициента на Пирсън при дадено равнище на значимост (0,05 или 0,01) и степени на свобода f = n-2 (Приложение 1). Ако извадковият коефициент по абсолютна стойност е равен или по-висок от критичната стойност – коефициентът е статистически значим. В противен случай се приема, че проявата на зависимостта се дължи на случайни фактори и коефициентът не е статистически значим.

    Приложение 1.  Критични стойности на коефициента на корелация  rкрит за ниво на значимост и степени на свобода f = n-2.



За разглеждания пример r = 0,873 f = 4; rкрит = 8,111 за равнище на значимост 0,05. Извод: зависимостта  е силна, положителна и статистически значима за ниво на значимост 0,05. За ниво на значимост 0,01 зависимостта не е статистически значима.


Корелацията е индикатор за силата на връзката между две променливи. Важно е да се отбележи, че тази връзка не е задължително да бъде причинно-следствена, т.е. стойностите на едната променлива да зависят или да са следствие от стойностите на другата. Причинността може да бъде разкрита само в контекста на конкретните променливи и не се разглежда от статистиката.