КОРЕЛЯЦІЙНИЙ ТА РЕГРЕСІЙНИЙ АНАЛІЗ
Загальне поняття про лінійну регресію.
Прості лінійні регресійні моделі встановлюють лінійну залежність між двома змінними, наприклад, витратами на відпустку та складом родини, витратами на рекламу та обсягом продажу продукції, витратами на споживання в межах країни та валовим національним продуктом (ВНП), зміною ВНП з часом і т.ін.
Одна із змінних вважається незалежною змінною (у), інша – залежною (х), при цьому у розглядається як функція від х.
У загальному вигляді проста вибіркова лінійна регресійна модель запишеться так:
(1)
де у – вектор спостережень за залежною змінною; ;
х – вектор спостережень за незалежною змінною; ;
b0, b1 – невідомі параметри регресійної моделі;
е – вектор випадкових величин (помилок); .
Регресійна модель (1) називається лінійною тому, що вона є лінійною функцією відносно незалежної змінної х. Її можна трактувати як пряму лінію на площині, де b0 – координата у перетину цієї лінії з віссю ординат, а b1 – її нахил (звичайно , якщо абстрагуватися від випадкової величини е).
Оцінка параметрів парної лінійної регресії за методом найменших квадратів (МНК)
Запишемо зв’зок між показником у і фактором х у вигляді (1). Щоб мати явний вигляд цієї залежності потрібно знайти (оцінити) невідомі параметри b0, b1 цієї моделі.
Кажуть, що показник має систематичну скадову і випадкову складову е. Залежність
(2)
яка характеризує середне значення показника у при заданому значенні фактора х, називається регресією. Інакше кажуть, що регресія характеризує тенденцію зміни показника, яка зумовлена впливом зміни фактора. Залежність (1) характеризує індивідуальне значення показника у з урахуванням можливих відхилень від середніх значень. Точні значення параметрів b0 і b1 в (1) чи (2) обчислити неможливо, так як ми маємо обмежене число спостережень. Взагалі, існує необмежена кількість прямих які можна провести через множину спостережуваних точок. Яку ж із них вибрати? Щоб це визначити, потрібно мати певний критерій, який дозволяв би вибрати з множини можливих прямих “найкращу” з точки зору даного критерію. Найпоширенішим є критерій мінімізації суми квадратів відхилень.
Для знаходження b0 і b1 розглянемо різниці
i=, (3)
де– фактичні, а – розрахункові значення показника, – відхилення спостережуваної точки (хi, yi) від точки (xi, ) згладжувальної прямої. Логічно, що треба проводити пряму таким чином, щоб сума квадратів відхилень (помилок) була мінімальною. В цьому й полягає суть методу найменших квадратів (МНК): невідомі значення параметрів b0 і b1 шукають з умови мінімуму суми квадратів таких відхилень по всіх спостережуваних точках.
. (4)
Відомо, що необхідною умовою мінімуму функціоналу S є рівність нулю частинних похідних від S по b0 і b1, тобто
. (5)
В результаті для знаходження невідомих b0 і b1 отримаємо систему лінійних рівнянь (яка називається нормальною)
. (6)
,
Розв’язок системи (6) відносно нахилу (невідома b1) запишеться так
. (7)
Розділимо чисельник і знаменник виразу (7) на n2 і враховуючи, що , , отримаємо
. (8)
За означенням, коефіцієнт коваріації між двома змінними х та у визначається за формулою
, (9)
а дисперсія величини х визначається так
. (10)
Зауважимо, що в літературі для коефіцієнту коваріації зустрічаються назви: : вибіркова коваріація або кореляційний момент . Для дисперсії величини х зустрічаються також позначення D[x] або (вибіркова дисперсія).
Отже враховуючи (9) та (10) вираз (8) можна записати ще таким чином
, (11)
тобто кут нахилу прямої регресії можна визначити як за формулою (7), так і за формулами (8) та (11).
Для визначення параметра b0 повернемося до (5), тобто
. (12)
Вираз, що входить під знак суми, є не що інше як відхилення еі (див.(4)). Отже рівність (12) показує, по-перше, що сума помилок дорівнює нулеві, а, по-друге, розділивши її на n, знайдемо вираз для визначення b0.
(13)
Ми отримали одну критичну точку. Дослідимо достатню умову існування екстремуму. Якщо визначник матриці Гессе в критичній точці додатньо визначений, то в цій точці існує мінімум.
Остання величина буде додатньою тоді, коли хоча б одне значення . Так як , то матриця Гессе додатньо визначена і точка (b1,b0) є точкою мінімуму функціоналу S. Отже оцінки параметрів b1 і b0 є такими, для яких виконується умова
.
Таким чином, ми знайшли формули для визначення невідомих параметрів b0 та b1 і можемо записати у явному вигляді регресію у від х. Маємо
(14)
або
(15)
Для ілюстрації розглянемо такий приклад. У таблиці 1 наведено умовні даніі спостережень витрат на відпустку залежно від кількості членів родини. Для того, щоб встановити залежність витрат на відпустку від розмірів родини, припустимо, що ця залежність описується лінійною функцією (14), тобто її можна розглядати як просту лінійну регресію (15).
Встановимо її невідомі параметри за формулами (7) та (13). Для цього нам потрібно при n=5 визначити
Таблиця 1
|
К-ть членів родини |
Витрати на відпустку |
|
|
|
|
|
xi |
yi |
xiyi |
xi2 |
yiр |
ei=yi-yiр |
|
1 |
16 |
16 |
1 |
14.75 |
1.25 |
|
2 |
12 |
24 |
4 |
17.375 |
-5.375 |
|
2 |
23 |
46 |
4 |
17.375 |
5.625 |
|
4 |
19 |
76 |
16 |
2625 |
-3.625 |
|
6 |
30 |
180 |
36 |
27.875 |
125 |
Всього |
15 |
100 |
342 |
61 |
100 |
0 |
|
b1 |
b0 |
|
|
|
|
|
625 |
1125 |
|
|
|
|
Відобразимо ці дані в цій же таблиці 1. Тоді
Отже, маємо
(16)
Рівняння (16) дає для кожного спостережуваного значення хі значення та помилку еі (дві останні колонки таблиці 1. Підкреслимо, що сума оцінених значень дорівнює сумі фактичних значень уі, а сума помилок дорівнює нулеві. На малюнку 1 показано залежність витрат на відпустку від кількості членів родини (спостережувані дані – ламана лінія, розрахункові – пряма). Зауважимо, що таблиця 1 і всі обчислення в ній, а також побудова графіків на малюнку 1 зроблені з допомогою пакету Excel.
Легко бачити, що рівняння регресії (14) після підстановки в нього формул для коефіцієнтів b1 та b0 (11) і (13) можна представити так
. (17)
Звідси випливає, що лінія регресії проходить через точку, координатами якої є середні значення показника у та фактора х і тангенс кута між цією лінією і віссю х визначається за формулою (11).
Якщо вихідні дані згруповані у вигляді так званої кореляційної таблиці
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
де і – середні значення відповідної групи фактора і показника, – кількість спостережень пари значень і , то числові характеристики обчислюються за такими формулами
– загальне число спостережень, (18)
, , (19)
, . (20)
Оцінки параметрів b1 i b0 парної лінійної регресії для згрупованих даних знайдемо після підстановки числових характеристик (19), (20) в формули (11), (13).
Властивості простої вибіркової лінійної регресії.
Можна показати, що парна лінійна регресія має ряд цікавих властивостей.
По-перше, вище ми показали, що лінія регресії проходить через середню точку, що рівнозначно тому, що сума помилок дорівнює нулю
. (21)
По друге, залишки e мають нульову коваріацію зі спостережуваними значеннями х та оціненими значеннями .
Повернемось до (5). З першого рівняння випливає
Отже
(тому що ).
Так як є лінійною функцією від х, то легко також довести, що
По третє, сума квадратів залишків є функцією від кута нахилу.
Як уже було показано вище, параметри b0 та b1 мають вигляд:
; . (22)
Позначимо
(23)
тобто та є відхиленнями від середніх значень. Пряма, що відповідає лінійній регресії, проходить через середню точку і виберемо цю точку за початок системи координат з осями . Розглянемо точку А з координатами . В нових осях . Друга рівність може бути розкладена таким чином:
, (24)
де – оцінене значення в нових координатах, тобто відхилення оціненого значення від середнього ,
.
Формулу лінійної регресії та суму квадратів залишків в нових позначеннях можна записати так
та
(25)
Останній вираз показує, що сума квадратів залишків є функцією кута нахилу b1.
Поняття про коефіцієнт кореляції.
Вище при визначенні оцінок крефіцієнтів регресивної моделі введено статистичний кореляційний момент (або коефіцієнт коваріації), який описує як зв’язок між випадковими величинами х і у так і їх розсіювання.
Для того, щоб оцінити щільність зв’язку, тобто щоб вияснити наскільки значним є вплив змінної х на у, вводять так званий коефіцієнт кореляції, який дає кількісну оцінку зв’язку між двома факторами і який розраховується за формулою
, (26)
де cov(x,y) – коефіцієнт коваріації між х та у; var(x) та var(y) – дисперсія змінної х та у відповідно.
Коефіцієнт кореляції на відміну від коефіцієнта коваріації, є вже не абсолютною а відносною оцінкою зв’язку між двома факторами і змінюється в межах від –1 до +1. Якщо ryx>0 то між х і у існує пряма залежність, інакше – обернена. Коли коефіцієнт кореляції прямує до 1 (за абсолютною величиною),то це свідчить про наявність сильного зв’язку. Якщо ж r прямує до нуля то зв’язок відсутній.
Для того, щоб довести нерівність розглянемо невід’ємний вираз
.
Так як ; ,
то
Доведемо, що від знаку залежить напрямок зв’язку між х і у. Оцінку параметра b1 ми отримали у вигляді
(27)
Так як то параметр rxy має той знак, що і b1. Ми знаємо, що якщо b1>0 то y зростає тоді, коли x зростає і, навпаки, при b1<0, що й потрібно було довести.
Декомпозиція дисперсій. Поняття про коефіцієнт детермінації.
Для аналізу якості описання залежності між двома явищами за допомогою регресії використовують ще один критерій – коефіцієнт детермінації. Він дає відповідь на запитання, чи справді зміна значення у лінійно залежить саме від зміни значення х, а не відбувається під впливом різних випадкових факторів.
Перш ніж розглянути цей критерій, розглянемо питання про декомпозицію дисперсій, яке є одним з центральних у статистиці.
Відхилення фактичних значень залежної змінної у від значень, що знаходяться на побудованій лінії (теоретичні значення) можна записати так
(28)
У статистиці різницю прийнято називати загальним відхиленням. Різницю називають відхиленням, яке можна пояснити, виходячи з регресійної прямої. Дійсно, якщо хі змінюється, то завжди можна знайти значення цього відхилення маючи тільки регресійну пряму, бо завжди залишається незмінною величиною. Різницю називають відхиленням, яке не можна пояснити, виходячи з регресійної прямої, або непояснювальним відхиленням.
Таким чином загальне відхилення ми розклали на дві частини – на відхилення, яке можна пояснити, виходячи з регресійної прямої і яке не можна пояснити з регресійної лінії (непояснюване відхилення).
Піднесемо до квадрату обидві частини рівності (28) та підсумуємо за всіма індексами. Отримаємо
Останню суму перепишемо так
(Вище показали, що ;).
Отже після виконання всіх дій отримаємо остаточний вираз:
(29)
де – загальна сума квадратів, яка позначається SSТ; – сума квадратів помилок, яка позначається через SSE; – сума квадратів, що пояснює регресію та позначається SSR.
Таким чином, вираз (29) скорочено можна записати так:
SST= SSE + SSR. Якщо (29) розділити на n, то отримаємо вираз для дисперсій:
(30)
(31)
або
(32)
Як видно з (32) перша частина є частиною дисперсії, яку не можна пояснити через регресійний зв’язок. Друга частина є складовою дисперсії, яку можна пояснити через регресійну лінію.
Частина дисперсії, що пояснює регресію – називається коефіцієнтом детермінації і позначається R
, (33)
або
. (34)
З (32) видно, що коефіцієнт детермінації завжди додатній і
Зв‘язок між коефіцієнтом кореляції та нахилом b1 і коефіцієнтом детермінації.
Дослідника в першу чергу цікавить, чи є зв’язок між коефіцієнтом кореляції і коефіцієнтом детермінації і якщо є, то який? Перш ніж дати відповідь на це запитання знайдемо, який зв’язок існує між коефіцієнтом кореляції і нахилом прямої регресії b1. Нагадаємо, що:
; (35)
(36)
(37)
Так як значення додатні, то знак коефіцієнта кореляції завжди збігається із знаком параметра b1.
Нагадуємо також, що
. (38)
Перепишемо чисельник в формулі (9) так
(39)
Отже ; (40)
Порівнюючи формулу (37) з формулою (40) встановлюємо, що коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції:
. (41)
Для ілюстрації наведених викладок розглянемо приклад, який будемо використовувати в якості ілюстративного і надалі.
Приклад. Бюро економічного аналізу фабрики “Світоч” оцінює ефективність відділу маркетингу з продажу цукерок. Для такої оцінки вони мають досвід праці у 5 географічних зонах з майже однаковими умовами (потенційні клієнти, ставлення до товарного знаку і т.ін.). У цих зонах вони зафіксували протягом однакового періоду обсяги продажів (млн. коробок), витрати (млн. грн.) фірми та просування товару на ринку. Дані наведені в табл.
Таблиця 2
|
Витрати фірми |
Обсяг продаж (млн. коробок) |
|
|
|
|
|
|
|
№ п/п |
xi |
yi |
xiyi |
xi2 |
|
|
|
|
|
1 |
5 |
25 |
125 |
25 |
25 |
-15 |
225 |
0 |
225 |
2 |
6 |
30 |
180 |
36 |
28 |
-10 |
100 |
4 |
144 |
3 |
9 |
35 |
315 |
81 |
37 |
-5 |
25 |
4 |
9 |
4 |
12 |
45 |
540 |
144 |
46 |
5 |
25 |
1 |
36 |
5 |
18 |
65 |
1170 |
324 |
64 |
25 |
625 |
1 |
576 |
Σ |
50 |
200 |
2330 |
610 |
200 |
0 |
1000 |
10 |
990 |
Σ/n |
10 |
40 |
466 |
122 |
40 |
0 |
200 |
2 |
198 |
За наведеними даними проведені наступні обчислення (які теж приведені в
табл.2).
ІНШІ КРИТЕРІЇ ЯКОСТІ ЛІНІЙНОЇ РЕГРЕСІЇ.
Припустимо, що нам відомі n прогнозних даних які відповідають n реальним даним тобто ми маємо відповідно n помилок прогнозу . Для визначення якості прогнозу на практиці дуже широко використовуються такі прості критерії.
1.Середня помилка прогнозу МЕ (mean error), яка розраховується за формулою
(51)
Критерій МЕ характеризує ступінь зміщення прогнозу і для правильних прогнозів повинен прямувати до 0 за умови великої кількості спостережень, тобто
, при
Дисперсія помилок (variation)
(52)
та стандартне відхилення (standart deviation)
(53)
Цей критерій, який взагалі є класичним у статистиці, вимірює ступінь розкиду значень змінної навколо свого середнього значення.
Для простої лінійної регресії, як нам уже відомо, середнє значення помилок дорівнює нулеві. Тому
(54)
3. Абсолютне середнє відхилення (mean absolute deviation)
(55)
У деяких машинних процедурах цей критерій розраховується за дещо іншою формулою, а саме:
(56)
де – довільно задана змінна;