Home » 12.Однофакторний дисперсiйний, кореляцiйний, регресiйний аналiз

12.Однофакторний дисперсiйний, кореляцiйний, регресiйний аналiз

9 Червня, 2024

Однофакторний дисперсійний, кореляційний, регресійний аналіз.

Поняття простої регресії

Прості лінійні регресійні моделі встановлюють лінійну залежність між двома змінними, наприклад, витратами на відпустку та складом родини, витратами на рекламу та обсягом продажу продукції, витратами на споживання в межах країни та валовим національним продуктом (ВНП), зміною ВНП з часом і т.ін.

Одна із змінних вважається незалежною змінною (у), інша – залежною (х), при цьому у розглядається як функція від х.

У загальному вигляді проста вибіркова лінійна регресійна модель запишеться так:

де у – вектор спостережень за залежною змінною; ;

х – вектор спостережень за незалежною змінною; ;

b0, b1 – невідомі параметри регресійної моделі;

е – вектор випадкових величин (помилок); .

Регресійна модель називається лінійною тому, що вона є лінійною функцією відносно незалежної змінної х. Її можна трактувати як пряму лінію на площині, де b0 – координата у перетину цієї лінії з віссю ординат, а b1 – її нахил (звичайно , якщо абстрагуватися від випадкової величини е).

Оцінка параметрів парної лінійної регресії за методом найменших квадратів (МНК)

Запишемо зв’зок між показником у і фактором х у вигляді (1). Щоб мати явний вигляд цієї залежності потрібно знайти (оцінити) невідомі параметри b0, b1 цієї моделі.

Кажуть, що показник має систематичну скадову і випадкову складову е. Залежність

(2)

яка характеризує середне значення показника у при заданому значенні фактора х, називається регресією. Інакше кажуть, що регресія характеризує тенденцію зміни показника, яка зумовлена впливом зміни фактора. Залежність (1) характеризує індивідуальне значення показника у з урахуванням можливих відхилень від середніх значень. Точні значення параметрів b0 і b1 в (1) чи (2) обчислити неможливо, так як ми маємо обмежене число спостережень. Взагалі, існує необмежена кількість прямих які можна провести через множину спостережуваних точок. Яку ж із них вибрати? Щоб це визначити, потрібно мати певний критерій, який дозволяв би вибрати з множини можливих прямих “найкращу” з точки зору даного критерію. Найпоширенішим є критерій мінімізації суми квадратів відхилень.

Для знаходження b0 і b1 розглянемо різниці

i=, (3)

де– фактичні, а – розрахункові значення показника, – відхилення спостережуваної точки (хi, yi) від точки (xi, ) згладжувальної прямої. Логічно, що треба проводити пряму таким чином, щоб сума квадратів відхилень (помилок) була мінімальною. В цьому й полягає суть методу найменших квадратів (МНК): невідомі значення параметрів b0 і b1 шукають з умови мінімуму суми квадратів таких відхилень по всіх спостережуваних точках.

. (4)

Відомо, що необхідною умовою мінімуму функціоналу S є рівність нулю частинних похідних від S по b0 і b1, тобто

. (5)

В результаті для знаходження невідомих b0 і b1 отримаємо систему лінійних рівнянь (яка називається нормальною)

. (6)

Розв’язок системи (6) відносно нахилу (невідома b1) запишеться так

. (7)

Розділимо чисельник і знаменник виразу (7) на n2 і враховуючи, що , , отримаємо

. (8)

За означенням, коефіцієнт коваріації між двома змінними х та у визначається за формулою

, (9)

а дисперсія величини х визначається так

. (10)

Зауважимо, що в літературі для коефіцієнту коваріації зустрічаються назви: : вибіркова коваріація або кореляційний момент . Для дисперсії величини х зустрічаються також позначення D[x] або (вибіркова дисперсія).

Отже враховуючи (9) та (10) вираз (8) можна записати ще таким чином

, (11)

тобто кут нахилу прямої регресії можна визначити як за формулою (7), так і за формулами (8) та (11).

Для визначення параметра b0 повернемося до (5), тобто

. (12)

Вираз, що входить під знак суми, є не що інше як відхилення еі (див.(4)). Отже рівність (12) показує, по-перше, що сума помилок дорівнює нулеві, а, по-друге, розділивши її на n, знайдемо вираз для визначення b0.

(13)

Ми отримали одну критичну точку. Дослідимо достатню умову існування екстремуму. Якщо визначник матриці Гессе в критичній точці додатньо визначений, то в цій точці існує мінімум.

Остання величина буде додатньою тоді, коли хоча б одне значення . Так як , то матриця Гессе додатньо визначена і точка (b1,b0) є точкою мінімуму функціоналу S. Отже оцінки параметрів b1 і b0 є такими, для яких виконується умова

Таким чином, ми знайшли формули для визначення невідомих параметрів b0 та b1 і можемо записати у явному вигляді регресію у від х. Маємо

(14)

або

(15)

Для ілюстрації розглянемо такий приклад. У таблиці 1 наведено умовні даніі спостережень витрат на відпустку залежно від кількості членів родини.Для того, щоб встановити залежність витрат на відпустку від розмірів родини, припустимо, що ця залежність описується лінійною функцією (14), тобто її можна розглядати як просту лінійну регресію (15).

Встановимо її невідомі параметри за формулами (7) та (13). Для цього нам потрібно при n=5 визначити

Таблиця 1

К-ть членів

родини

Витрати

на

відпустку

xiyi

xi2

yiр

ei=yi-yiр

175

1.25

17.375

-5.375

17.375

5.625

2625

-3.625

180

27.875

125

Всього

100

342

100

625

1125

Відобразимо ці дані в цій же таблиці 1. Тоді

Отже, маємо

(16)

Рівняння (16) дає для кожного спостережуваного значення хі значення та помилку еі (дві останні колонки таблиці 1. Підкреслимо, що сума оцінених значень дорівнює сумі фактичних значень уі, а сума помилок дорівнює нулеві. На малюнку 1 показано залежність витрат на відпустку від кількості членів родини (спостережувані дані – ламана лінія, розрахункові – пряма). Зауважимо, що таблиця 1 і всі обчислення в ній, а також побудова графіків на малюнку 1 зроблені з допомогою пакету Excel.

Легко бачити, що рівняння регресії (14) після підстановки в нього формул для коефіцієнтів b1 та b0 (11) і (13) можна представити так

. (17)

Звідси випливає, що лінія регресії проходить через точку, координатами якої є середні значення показника у та фактора х і тангенс кута між цією лінією і віссю х визначається за формулою (11).

Якщо вихідні дані згруповані у вигляді так званої кореляційної таблиці








							N

де і – середні значення відповідної групи фактора і показника, – кількість спостережень пари значень і , то числові характеристики обчислюються за такими формулами

– загальне число спостережень, (18)

, , (19)

, . (20)

Оцінки параметрів b1 i b0 парної лінійної регресії для згрупованих даних знайдемо після підстановки числових характеристик (19), (20) в формули (11), (13).

3. Властивості простої вибіркової лінійної регресії.

Можна показати, що парна лінійна регресія має ряд цікавих властивостей.

По-перше, вище ми показали, що лінія регресії проходить через середню точку, що рівнозначно тому, що сума помилок дорівнює нулю

. (21)

По друге, залишки e мають нульову коваріацію зі спостережуваними значеннями х та оціненими значеннями .

Повернемось до (5). З першого рівняння випливає

Отже

(тому що ).

Так як є лінійною функцією від х, то легко також довести, що

По третє, сума квадратів залишків є функцією від кута нахилу.

Як уже було показано вище, параметри b0 та b1 мають вигляд:

; . (22)

Позначимо

(23)

тобто та є відхиленнями від середніх значень. Пряма, що відповідає лінійній регресії, проходить через середню точку і виберемо цю точку за початок системи координат з осями . Розглянемо точку А з координатами . В нових осях . Друга рівність може бути розкладена таким чином:

, (24)

де – оцінене значення в нових координатах, тобто відхилення оціненого значення від середнього ,

Формулу лінійної регресії та суму квадратів залишків в нових позначеннях можна записати так

та

(25)

Останній вираз показує, що сума квадратів залишків є функцією кута нахилу b1.

Коефіцієнти кореляції і детермінації.

Вище при визначенні оцінок крефіцієнтів регресивної моделі введено статистичний кореляційний момент (або коефіцієнт коваріації), який описує як зв’язок між випадковими величинами х і у так і їх розсіювання.

Для того, щоб оцінити щільність зв’язку, тобто щоб вияснити наскільки значним є вплив змінної х на у, вводять так званий коефіцієнт кореляції, який дає кількісну оцінку зв’язку між двома факторами і який розраховується за формулою

, (26)

де cov(x,y) – коефіцієнт коваріації між х та у; var(x) та var(y) – дисперсія змінної х та у відповідно.

Коефіцієнт кореляції на відміну від коефіцієнта коваріації, є вже не абсолютною а відносною оцінкою зв’язку між двома факторами і змінюється в межах від –1 до +1. Якщо ryx>0 то між х і у існує пряма залежність, інакше – обернена. Коли коефіцієнт кореляції прямує до 1 (за абсолютною величиною),то це свідчить про наявність сильного зв’язку. Якщо ж r прямує до нуля то зв’язок відсутній.

Для того, щоб довести нерівність розглянемо невід’ємний вираз

Так як ; ,

то

Доведемо, що від знаку залежить напрямок зв’язку між х і у. Оцінку параметра b1 ми отримали у вигляді

(27)

Так як то параметр rxy має той знак, що і b1. Ми знаємо, що якщо b1>0 то y зростає тоді, коли x зростає і, навпаки, при b1<0, що й потрібно було довести.

Декомпозиція дисперсій. Поняття про коефіцієнт детермінації.

Для аналізу якості описання залежності між двома явищами за допомогою регресії використовують ще один критерій – коефіцієнт детермінації. Він дає відповідь на запитання, чи справді зміна значення у лінійно залежить саме від зміни значення х, а не відбувається під впливом різних випадкових факторів.

Перш ніж розглянути цей критерій, розглянемо питання про декомпозицію дисперсій, яке є одним з центральних у статистиці.

Відхилення фактичних значень залежної змінної у від значень, що знаходяться на побудованій лінії (теоретичні значення) можна записати так

(28)

У статистиці різницю прийнято називати загальним відхиленням. Різницю називають відхиленням, яке можна пояснити, виходячи з регресійної прямої. Дійсно, якщо хі змінюється, то завжди можна знайти значення цього відхилення маючи тільки регресійну пряму, бо завжди залишається незмінною величиною. Різницю називають відхиленням, яке не можна пояснити, виходячи з регресійної прямої, або непояснювальним відхиленням.

Таким чином загальне відхилення ми розклали на дві частини – на відхилення, яке можна пояснити, виходячи з регресійної прямої і яке не можна пояснити з регресійної лінії (непояснюване відхилення).

Піднесемо до квадрату обидві частини рівності (28) та підсумуємо за всіма індексами. Отримаємо

Останню суму перепишемо так

(Вище показали, що ;).

Отже після виконання всіх дій отримаємо остаточний вираз:

(29)

де – загальна сума квадратів, яка позначається SSТ; – сума квадратів помилок, яка позначається через SSE; – сума квадратів, що пояснює регресію та позначається SSR.

Таким чином, вираз (29) скорочено можна записати так:

SST= SSE + SSR. Якщо (29) розділити на n, то отримаємо вираз для дисперсій:

(30)

(31)

або

(32)

Як видно з (32) перша частина є частиною дисперсії, яку не можна пояснити через регресійний зв’язок. Друга частина є складовою дисперсії, яку можна пояснити через регресійну лінію.

Частина дисперсії, що пояснює регресію – називається коефіцієнтом детермінації і позначається R

, (33)

або

. (34)

З (32) видно, що коефіцієнт детермінації завжди додатній і

Зв’язок між коефіцієнтом кореляції та нахилом b1 і коефіцієнтом детермінації.

Дослідника в першу чергу цікавить, чи є зв’язок між коефіцієнтом кореляції і коефіцієнтом детермінації і якщо є, то який? Перш ніж дати відповідь на це запитання знайдемо, який зв’язок існує між коефіцієнтом кореляції і нахилом прямої регресії b1. Нагадаємо, що:

; (35)

(36)

(37)

Так як значення додатні, то знак коефіцієнта кореляції завжди збігається із знаком параметра b1.

Нагадуємо також, що

. (38)

Перепишемо чисельник в формулі (9) так

(39)

Отже ; (40)

Порівнюючи формулу (37) з формулою (40) встановлюємо, що коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції:

. (41)

Для ілюстрації наведених викладок розглянемо приклад, який будемо використовувати в якості ілюстративного і надалі.

Приклад. Бюро економічного аналізу фабрики “Світоч” оцінює ефективність відділу маркетингу з продажу цукерок. Для такої оцінки вони мають досвід праці у 5 географічних зонах з майже однаковими умовами (потенційні клієнти, ставлення до товарного знаку і т.ін.). У цих зонах вони зафіксували протягом однакового періоду обсяги продажів (млн. коробок), витрати (млн. грн.) фірми та просування товару на ринку. Дані наведені в табл.

Таблиця 2

	Витрати фірми	Обсяг продаж (млн. коробок)
№ п/п	xi	yi	xiyi	xi2
1	5	25	125	25	25	-15	225	0	225
2	6	30	180	36	28	-10	100	4	144
3	9	35	315	81	37	-5	25	4	9
4	12	45	540	144	46	5	25	1	36
5	18	65	1170	324	64	25	625	1	576
Σ	50	200	2330	610	200	0	1000	10	990
Σ/n	10	40	466	122	40	0	200	2	198

За наведеними даними проведені наступні обчислення (які теж приведені в

табл.2).

ІНШІ КРИТЕРІЇ ЯКОСТІ ЛІНІЙНОЇ РЕГРЕСІЇ.

Припустимо, що нам відоміпрогнозних даних які відповідаютьреальним даним тобто ми маємо відповіднопомилок прогнозу . Для визначення якості прогнозу на практиці дуже широко використовуються такі прості критерії.

1.Середня помилка прогнозу МЕ (mean error), яка розраховується за формулою

(51)

Критерій МЕ характеризує ступінь зміщення прогнозу і для правильних прогнозів повинен прямувати до 0 за умови великої кількості спостережень, тобто

, при

Дисперсія помилок (variation)

(52)

та стандартне відхилення (standart deviation)

(53)

Цей критерій, який взагалі є класичним у статистиці, вимірює ступінь розкиду значень змінної навколо свого середнього значення.

Для простої лінійної регресії, як нам уже відомо, середнє значення помилок дорівнює нулеві. Тому

(54)

3. Абсолютне середнє відхилення (mean absolute deviation)

(55)

У деяких машинних процедурах цей критерій розраховується за дещо іншою формулою, а саме:

(56)

де – довільно задана змінна;

З формули (6) випливає рекурентна формула для визначення цього критерію:

(257)

В якосты початкового значення MAD0 найчастіше приймається е1. Для достатньо великого класу статистичних розподілів значення стандартного відхилення дещо більше, ніж значення середнього абсолютного відхилення та строго пропоційне йому. Константа пропорційності лежить у межах від 1.2 до 1.3. Здебільшого вибирається середнє значення 1.25, що дозволяє записати:

(58)

Середній квадрат помилки MSE (mean square error)

(59)

Цей критерій для лінійної регресії збігається з дисперсією помилок (54).

Замість середнього квадрата помилок дуже часто використовується просто сума квадратів помилок:

(60)

Цей критерій особливо поширений при виборі оптимальних моделей прогнозування. З декількох моделей вибирається та, яка дає меншу суму квадратів помилок.

5. Абсолютна середня процентна помилка МАРЕ (mean absolute percentage error)

(61)

Цей критерій використовується при порівнянні точності прогнозів різнорідних об’єктів, бо характеризує відносну точність прогнозу. При цьому вважається, що значення МАРЕ менше 10% дає високу точність прогнозу, а отже, і якість моделі; від 10 до 20% – добру точність, від 20 до 50% – задовільну точність; понад 50% – незадовільну точність.

6. Середня процентна помилка МРЕ (mean percentage error)

(62)

Це показник незміщеності прогнозу. З точки зору практики для якісних моделей цей показник має бути малим, загалом не перевищувати 5%. Зазначимо, що як і показник МАРЕ, він не визначений для нульових значень у.

7. Середня абсолютна помилка МАЕ (mean absolute error)

(63)

Вона дає змогу визначити середнє значення помилки, без врахування знака.

Описані вище критерії якості використовуються як додаткова інформація при виборі найкращої моделі з можливих. Ми розглянемо це питання в наступному розділі.

Узагальнена регресійна модель

Повернемося до нашого прикладу: як обсяги реалізації продукції фірми залежать від витрат на рекламу. Дані для виявлення форми зв’язку між цими двома факторами ми отримали в п’яти однорідних (за вибраними властивостями) географічних зонах. За цими даними будувалась лінійна регресійна модель та розраховувались невідомі параметри. Тепер припустимо, що такі спостереження ми проводили кожного місяця протягом 3 років, залишаючи незмінними витрати на рекламу (хі) у кожній географічній зоні. Безперечно, обсяги реалізації продукції (уі) будуть різними навіть при незмінних витратах на рекламу. Єдиним джерелом зміни є випадкова величина, яка знаходить відображення у різних значеннях у.

Припустимо, що узагальненою регресійною моделлю є:

(64)

де , – правильні параметри всієї генеральної сукупності, – неспостережувана випадкова величина.

Проводячи спостереження кожного місяця протягом 3 років, ми отримаємо множину, яка складається з 36 вибірок, кожна з яких має 5 пар значень х та у і кожна з яких дає пару значень невідомих параметрів b0 та b1, знайдених за допомогою методу найменших квадратів.

Постає питання, як за значеннями параметрів b0, b1 зробити висновки про параметри усієї сукупності. І взагалі, чи можна зробити якість висновки? Далі ми покажемо, що коли параметри вибіркової лінійної моделі розраховані за методом найменших квадратів, то при певних класичних припущеннях математичне сподівання параметрів b0 та b1 дорівнює значенням параметрів узагальненої моделі (моделі, яка є дійсною для всієї генеральної сукупності) , , тобто

Розглянемо спочатку основні припущення для простої лінійної регресії.

9. Класична модель лінійної регресії: основні припущення,

що лежать в основі методу найменших квадратів.

Мета регресійного аналізу полягає не тільки у визначенні невідомих параметрів вибіркової лінійної моделі b0 та b1, а, насамперед, у висновках, які ми можемо зробити щодо дійсних значень параметрів узагальненої моделі і . Для того, щоб відповісти на запитання, наскільки наближаються знайдені оцінки b0 і b1 до відповідних значень параметрів узагальненої моделі, або, що те ж саме, наскільки наближається теоретичне значення до дійсного значення свого математичного сподівання ми повинні не тільки точно визначити функціональну форму моделі, а й зробити певні припущення щодо випадкової величини та зв’язку між випадковою величиною і залежною змінною хі. Щоб з’ясувати, чому це так, повернемося ще раз до узагальненої лінійної регресійної моделі . Як можна побачити, уі залежить від хі і . Тому, поки ми не зробимо певних припущень щодо випадкової величини та незалежної змінної хі, ми не зможемо зробити ніякого статистичного висновку про уі, а також, як це буде показано далі, про значення дійсних параметрів . Отже, припущення щодо змінної хі та випадкової величини є головними для інтерпретації регресійних оцінок.

Рзглянемо припущення, які становлять основу класичного регресійного аналізу. Для простої лінійної регресії вони мають такий вигляд.

Припущення 1. Математичне сподівання випадкової величини дорівнює нулеві. У скороченому вигляді це припущення можна записати:

(65)

Припущення 1 констатує, що значення математичного сподівання , зумовлене даним хі, дорівнює нулеві. Геометрично це припущення зображено на мал. 5, де показано кілька значень змінної х і набір у, що відповідають кожному з них. Кожен набір у, який відповідає даному х, розподілено навколо значення його математичного сподівання (обведені точки на регресійній прямій) з деякими значеннями у над математичним сподіванням і деякими під ним. Відстані над і під математичними сподіваннями і є випадковими величинами

Припущення 1 вимагає, щоб математичне сподівання цих відхилень, відносно будь – якого даного х, дорівнювало нулеві.

Припущення 1 реально стверджує, що фактори, які не враховано в моделі і тому віднесено до , не впливають систематично на математичне сподівання у, тобто додатні значення нейтралізують від’ємні , тому їхній усереднений чи очікуваний вплив на у дорівнює нулеві.

Малюнок 5. Умовний розподіл випадкової величини

Зазначимо також, що припущення передбачає . Отже, ці два припущення еквівалентні.

Припущення Відсутність автокореляції між випадковими величинами Це припущення означає, що випадкові величини повинні бути незалежними між собою, тобто коефіцієнт коваріації між випадковими величинами повинен дорівнювати нулеві, що можна записати таким чином:

, (66)

Припущення 2 стверджує, що випадкові величини незалежні одна від одної, тобто будь–яке і–те значення випадкової величини не впливає на будь–яке j–те значення, інакше кажучи, кореляції між і немає. У математичній статистиці та економетриці ця властивість формулюється через нульову коваріацію. На мал. 6, а зображена наявність додатної кореляції між випадковими величинами : додатне значення супроводжується додатним , а від’ємне значення супроводжується від’ємним . На мал. б, б зображена наявність від’ємної кореляції між випадковими величинами – від’ємне значення супроводжується додатним , і навпаки. На мал. 6, в показано класичний випадок відсутності кореляції між випадковими величинами, тобто немає систематичності у розміщенні випадкових значень , тому коваріація між ними дорівнює нулю.

Малюнок 6. Зв’язок між випадковими величинами: а – наявність додатного зв’язку; б – відсутність від’ємного зв’язку; в – відсутність зв’язку, кореляція та коваріація дорівнюють нулеві.

Припущення 2 дає змогу розглянути найпростіший випадок, коли вивчається систематичний вплив (якщо він є) хt на уt без врахування впливу інших факторів, виражених випадковою величиною .

Якщо це не так, то ми матимемо складнішу залежність, розгляд якої виходить за рамки класичної регресії. Такі ситуації ми будемо розглядати пізніше, а поки що проілюструємо на простому прикладі, що відбувається в разі порушення припущення

Припустимо, що у регресійній моделі випадкові величини і мають додатну кореляцію. Тоді уt залежатиме не тільки від хt, а й від , оскільки значення певним чином визначає величину . Пізніше ми розглянемо, як можна тестувати наявність зв’язку між випадковими величинами та яким чином відсутність незалежності впливає на регресійну модель.

Припущення 3. Гомоскедастичність, або однакова дисперсія випадкових величин . Це припущення вимагає, щоб усі випадкові величини, незалежно від номера спостереження, мали однакову дисперсію.

Математично це припущення можна записати таким чином:

. (67)

Вираз (67) означає, що дисперсія для кожного хі (тобто умовна дисперсія ) є константою, що дорівнює . А це в свою чергу свідчить про те, що умовна дисперсія розподілу у є також сталою величиною. Цю ситуацію показано на мал. 7.

Малюнок 7. Гомоскедастичність, або постійна дисперсія

Порівняйте мал. 7 з мал. 8, де умовна дисперсія розподілу у зростає із збільшенням значень х. Ця ситуація відома як гетероскедастичність, або нерівна дисперсія. У цьому разі дисперсія випадкових величин уже не буде константою, а вираз (67) відповідно трансформується, тобто його можна розписати як:

. (68)

Зверніть увагу, що індекс біля у рівнянні (68) показує, що тепер дисперсія розподілу випадкової величини вже не є сталою.

Малюнок 8. Гетероскедастичність, або нерівна дисперсія

Щоб зрозуміти необхідність припущення про постійну дисперсію, або як часто кажуть про гомоскедастичність, звернемося ще раз до мал. 8. Як показано на малюнку, Тому зразу ж постає запитання, які з розподілів залежних змінних у вибирати для опису реальної ситуації – ті, що щільніше наближені до своїх математичних сподівань, чи ті, що мають великий розкид?

Вводячи припущення 3, обмежимось випадком, коли всі значення у, які відносяться до різних значень х, є однаково важливими. Дальше ми покажемо, що відбувається, коли припущення про однакову дисперсію порушується, тобто ми розглянемо складніший випадок – випадок гетероскедастичності.

Зверніть увагу на те, що припущення 3 означає, що , тобто умовна дисперсія у, теж є гомоскедастичною. Спробуйте аргументувати це самостійно.

Припущення Незалежність між значеннями випадкової величини і значеннями змінної хі, або нульова коваріація між та хі.

Формально це припущення можна записати так:

оскільки

за припущенням.

Припущення 4 передбачає відсутність кореляції між величинами і незалежною змінною х. Якщо припустити протилежне, то коли х і мають додатну кореляцію, х зростає із зростанням , і зменшується при зменшенні . Аналогічно, якщо х і мають від’ємну кореляцію, х зростає у випадку зменшення і зменшується, коли збільшується. В обох випадках важко простежити вплив х на у.

Припущення 4 використовується автоматично, якщо змінна х є невипадковою, або нестохастичною, і зберігається припущення 1, з якого випливає, що .

Але оскільки ми припустили, що змінна х є не тільки нестохастичною, а має також фіксовані значення у повторюваних вибірках, то припущення 4 для нас не є вирішальним. Його застосовуємо для того, аби показати, що регресійна теорія зберігатиметься навіть тоді, коли значення х будуть випадковими за умови, що вони незалежні чи хоча б не мають кореляції з відхиленнями . Наслідки відкидання припущення 4 розглянемо дальше.

Припущення 5. Регресійну модель визначено (специфіковано) правильно (відсутність похибки). Це найвагоміше і, напевне, найрідше застосовуване припущення. Повну значущість цього припущення буде розглянуто дальше. Зараз ми спробуємо пояснити його якнайпростіше.

Як було зазначено у вступі, економетричне дослідження починається із специфікації економетричної моделі, яка має бути адекватною економічному процесу, що вивчається. При специфікації моделі, яка описує досліджувану ситуацію, виникає кілька важливих запитань, а саме:

які змінні потрібно включати в модель; якою є функціональна форма моделі; чи є вона лінійною за параметрами та змінними, чи ні; які можливі припущення щодо уі, хі і можна зробити у моделі?

Це надзвичайно важливі питання, бо, наприклад, вилучаючи з моделі важливі змінні, чи вибираючи неправильну функціональну форму зв’язку, чи вдаючись до неправильних припущень щодо змінних моделей, ми ставимо під сумнів правільність інтерпретації оцінюваної регресії. Щоб дати інтуїтивне уявлення про важливість припущення 5, звернемося до кривої Філіпса, зображеної на мал. 5. Припустимо, що ми обираємо дві різні моделі, які відображають зв’язок між рівнем зміни номінальної заробітної плати і рівнем безробіття:

(69)

, (70)

де уі – дорівнює рівневі зміни нормальної заробітної плати; хі – рівень безробіття.

Регресійна модель (69) є лінійною і за параметрами, і за змінними, тоді як (70) є лінійною за параметрами (тобто моделлю лінійної регресії, за нашим означенням), але нелінійною за змінною х.

Малюнок 9. Лінійна і нелінійна криві Філліпса

Якщо модель (70) в дійсності є “правильною”, а ми вибираємо модель (69), то, як показано на мал.9, вона забезпечить неправильний прогноз: між точками А і В для будь – якого даного хі модель (69) переоцінюватиме справжнє математичне сподівання у, і в той же час недооцінюватиме ( чи переоцінюватиме – в абсолютних термінах) математичне сподівання у зліва від А (справа від В).

Цей умовний приклад є зразком того, що називається неправильною специфікацією, або помилкою специфікації, і полягає у виборі неправильної функціональної форми.

На жаль, на практиці ми не завжди відразу можемо встановити правильні змінні, які потрібно залучити в модель, або не відразу можемо знайти правильну форму моделі чи правельні припущення щодо змінних. Отже, при побудові моделі спеціалісти повинні проводити копітку роботу щодо вибору змінних для моделі, роботи певні припущення щодо стохастичної природи змінних, послідовно вибирати найкращу фунуціональну форму моделі.

Ще раз задамо собі запитання, а для чого все ж таки потрібне припущення 5? Не вникаючи в деталі, достатньо сказати, що дане припущення нагадує нам про залежність регресійного аналізу і, отже, його результатів від обраної моделі, і застерігає нас про необхідність обережно формулювати економетричні моделі, особливо, коли одразу є кілька теорій щодо пояснення економічного явища, наприклад процентної ставки, попиту на гроші, визначення рівноважної вартості акцій і облігацій тощо. Тому економетрична побудова моделей – це, як ми побачимо далі, більшою мірою мистецтво, ніж наука.

Припущення 6. Випадкова величина розподілена нормально з математичним сподіванням нуль та сталою дисперсією .

Формально це припущення можна записати у вигляді:

Припущення 6, як ми побачимо далі, є необхідним при побудові інтервалів довіри для параметрів, залежної змінної у та інших характеристик лінійної регресійної моделі.

Слід зауважити, що дані припущення стосуються тільки узагальненої регресійної моделі (УРМ) і не стосуються вибіркової моделі (ВРМ). Проте цікаво спостерігати, що метод найменших квадратів, описаний раніше, має деякі властивості, схожі на припущення, які ми щойно зробили. Наприклад, висновок, що і, отже, , схожий на припущення, що .

Розподіл залежної змінної у.

Як пояснювалося вище, при переході від однієї вибірки до множини вибірок, коли х залишається незмінним, єдиним джерелом зміни у є випадкова величина. Отже, змінна у також є випадковою величиною. Звичайно, розподіл залежної змінної у певною мірою залежить від припущень, прийнятих для випадкової величини .

Покажемо, що залежна змінна має нормальний розподіл з математичним сподіванням

(71)

та дисперсією

. (72)

Доведення 1

Математичне сподівання залежної змінної дорівнює:

Враховуючи, що та є параметрами узагальненої моделі, а отже, константами, та що хі має фіксоване значення, отримаємо першу складову частину:

За припущенням 1 простої лінійної регресії маємо: друга складова частина дорівнює нулю – .

Звідки остаточно .

Дисперсія залежної змінної дорівнює дисперсії випадкової величини:

Введемо заміну змінних: та . Після відповідної зміни у виразі для дисперсії у отримаємо:

Отже, дисперсія змінної у дорівнює дисперсії випадкової величини.

Тепер залишилось тільки показати, що випадкова величина у розподілена за нормальним законом розподілу з відповідним знайденим математичним сподіванням та дисперсією.

Як відомо, тип розподілу у визначається типом розподілу випадкової величини , який є нормальним за припущенням 6. Очевидно, що та , які є константами, не впливають на розподіл у. Крім того, значення змінної хі – це за властивістю 5 ряд констант, а тому воно також не впливає на розподіл у. Отже, розподіл випадкової величини у визначається тільки розподілом випадкової величини , тобто є також нормальним.

Тест Фішера для перевірки нуль-гіпотези

Тестування гіпотези, чи дорівнює , можна розглядати ще й поіншому, а саме: вона дає відповідь, чи справді незалежна змінна х впливає на значення незалежної у. Тобто у разі простої лінійної регресії перевірка нуль-гіпотези аналогічна перевірці адекватності моделі за F-критерієм Фішера. Покажемо це.

Ми вже знаємо, що відношення

розподіляється за нормальним законом розподілу з математичним сподіванням 0 і дисперсією1.

За визначенням закону розподілу маємо:

, що відповідає – розподілу з 1 ступенем вільності, а

що відповідає – розподілу з ступенями вільності незалежно від bi.

З математичної статистики відомо, що відношення двох випадкових величин, розподілених за законом і поділених на число їхніх ступенів вільності, розподіляється за законом розподілу Фішера з відповідними ступенями вільності.

Таким чином, величина

(105)

розподіляємо за F-розподілом Фішера з (1, n-2) ступенями вільності.

Якщо , тоді

(106)

Як показано раніше, суму квадратів, що пояснює регресію, можна подати у вигляді:

(107)

а сума квадратів залишків відповідно дорівнюватиме:

. (108)

З урахуванням цього вираз (106) можна переписати у звичайному для F-критерію Фішера вигляді перевірки на адекватність моделі:

. (109)

Тестування за критерієм Фішера значимості змінної х, або адекватності моделі, складається з певних етапів.

Спочатку формулюється нуль-гіпотеза: .

Задаємо -рівень значимості (наприклад, 5%).

Обчислюємо F-відношення.

За таблицями F-розподілу Фішера знаходимо F-критичне значення при заданому рівні значимості (або помилки) та з (1, n-2) ступенями вільності (для простої регресії).

Цю гіпотезу відкидаємо з -ним ризиком помилитися (наприклад 5%-ний ризик), якщо:

де –значення F при 5%-ному ризику помилки (знаходимо за таблицями F–критерію Фішера з відповідними ступенями вільності і заданим рівнем значимості).

15. Порівняння F-критерію Фішера з t-критерієм Ст’юдента.

F-критерій Фішера, як і t-критерієм Ст’юдента, використовують для оцінки значимості х. Це одні й ті самі тести, але записані в різній формі. Для того, щоб визначити еквівалентність цих двох тестів, нагадаємо тест Ст’юдента:

Відкинути з -ним ризиком помилитись, якщо:

, (110)

де – критичне значення з таблиці t–розподілу Ст’юдента з ступенями вільності при заданому рівні значимості .

Тест Фішера має вигляд:

відкинути з -ним ризиком, якщо

. (111)

Якщо порівняти ліві частини нерівностей (110) та (111), то легко помітити, що друга є квадратом першої. Таким чином, виконується тотожність:

F–відношення = (t-відношенню) (112)

З математичної статистики також відомо, що

F–критичне значення = (t–критичному значенню t) (113)

З (112) і (113) випливає, що два тести еквівалентні.

Існує ще одна можливість розгляду F–критерію Фішера. Як ми показували раніше:

;

де R2-коефіцієнт детермінації, що є квадратом коефіцієнта кореляції r.

Згідно з (109) F–статистику можна записати у вигляді:

. (114)

Користуючись зв’язком між F і t (див. 113), можна отримати інший вираз для t статистики, яка розподіляється за законом розподілу Ст’юдента з ступенями вільності:

. (115)

Таким чином, ми отримали три різні версії одного і того самого тесту.

Тест (див. 115), який використовує r, можна використати для перевірки значимості коефіцієнта кореляції. Тест щодо b1 можна використовувати, щоб визначити значимість нахилу регресії.

Проте всі вони (кожен по-своєму) відповідають на питання адекватності побудованої вибіркової простої регресійної моделі.

16. t–тест для оцінки значимості коефіцієнта кореляції.

Ми знаємо, що коефіцієнт кореляції r вимірює щільність зв’язку між двома змінними. У випадку простої лінійної регресії він вимірює щільність зв’язку між незалежною змінною х і залежною змінною у. Задамося ціллю встановити:

як пов’язані коефіцієнт кореляції r між вибірковими значеннями х і у з коефіцієнтом кореляції r всієї генеральної сукупності;

як перевірити значимість коефіцієнта кореляції і як для цього використати –статистику (115).

Спробуємо спочатку відповісти на друге запитання, що автоматично дає відповідь і на перше запитання. Використаємо t–статистику у вигляді (115) для визначення, чи статистично значимо коефіцієнт кореляції всієї сукупності r відрізняється від нуля.

Спочатку розглянемо найпростіший випадок, а саме t-тест для оцінки значимості коефіцієнта кореляції (з припущенням, що r=0).

Сформулюємо нуль-гіпотезу:

, (116)

де r – вибірковий коефіцієнт кореляції між х і у.

– кількість спостережень.

Величина t* розподілена за t-розподілом Ст’юдента з (n-k) ступенями вільності (нагадаємо, що для простої лінійної регресії k=2).

Розраховане значення t* порівнюємо з критичним значенням при -ному рівні значимості й (n-2) ступенях вільності. Якщо , відкидаємо нуль-гіпотезу і приймаємо гіпотезу .

Приклад. Маємо вибірку значень х і у, яка складається з 20 спостережень; коефіцієнт кореляції r=0.8 Ми хочемо перевірити при 5%-ному рівні значимості, чи значимо коефіцієнт кореляції відрізняється від нуля. Тобто перевіряємо нуль-гіпотезу:

проти альтернативної:

Малюнок 1 Перевірка на значимість коефіцієнта кореляції за t–тестом Ст’юдента

За t–таблицями Ст’юдента знаходимо теоретичне значення t з 18 ступенями вільності і 5% -ним рівнем значимості, яке дорівнює (мал. 14). Оскільки , ми відкидаємо нуль-гіпотезу і робимо висновок, що .

Трансформований у z-тест t-тест для оцінки значимості коефіцієнта кореляції (з припущенням, що )

Якщо , то t-розподіл з коефіцієнтом є несиметричним. Тобто t-статистику не можна використовувати для перевірки таких гіпотез, як або .

Цю проблему було вирішено в 1921 році Фішером, який трансформував у величину h:

розподілену нормально з математичним сподіванням

і дисперсією

що формалізовано можна записати

; .

Як будь-яку нормально розподілену величину, її можна стандартизувати, тобто звести до нормально розподіленої величини з математичним сподіванням 0 і дисперсією 1 шляхом перетворення:

Приклад. З вибірки, що складається з 28 спостережень, знайдемо, що r=0.70.

Чи варто відкинути гіпотезу, що (в генеральній сукупності) з ризиком помилитися 5% ?

Тобто перевіряємо нуль-гіпотезу:

проти

Для цього обчислимо величину:

;

Далі розрахуємо значення z–статистики:

З огляду на те, що заданий рівень помилки , за таблицями нормального розподілу знаходимо критичне значення .

Табличне значення (мал. 15).

Малюнок 15. Функція густини нормального закону розподілу

Оскільки , приймаємо нуль-гіпотезу про те, що коефіцієнт кореляції усієї сукупності . Тобто розраховане значення r=0.7 є статистично незначимим.

ПРОГНОЗУВАННЯ ЗА МОДЕЛЯМИ ПРОСТОЇ ЛІНІЙНОЇ РЕГРЕСІЇ.

Повернемося до нашого прикладу. Ми маємо ряд значень незалежної змінної х (витрати на рекламу) та залежної змінної у (обсяги продажу продукції) На підставі цих даних ми побудували лінійну модель та оцінили параметри за методом найменших квадратів. Якщо наша модель адекватна, можемо прогнозувати зміну обсягів продаж продукції залежно від зміни витрат на рекламу. При цьому ми можемо отримати два типи прогнозів: точкові та інтервальні. Точковий прогноз дає значення залежної змінної, наприклад, для відповідного значення з побудованої вибіркової моделі:

. (115)

При цьому, виходячи з узагальненої моделі, дійсне значення у для прогнозного періоду дорівнюватиме:

, (116)

де -значення випадкової величини, не спостережуваної в (n+1) періоді.

Отже, прогнозне значення є оцінкою дійсного значення змінної . Таким чином, за нашою вибірковою моделлю легко можна знаходити будь-яке прогнозне значення. Зазначимо, що таке прогнозне значення буде точковим. Як, використовуючи отриманий точковий прогноз, знайти інтервали довіри для дійсного значення залежної змінної, тобто побудувати інтервал, у який з певною імовірністю потрапляє дійсне значення залежної змінної? Щоб відповісти на це запитання, розглянемо спочатку помилку прогнозного значення, знайдемо її математичне сподівання та дисперсію, а далі перейдемо до побудови інтервалів довіри.

. (117)

Математичне сподівання помилки прогнозу:

, бо за припущенням , та є константами, а математичне сподівання кожного знайденого параметра відповідно дорівнює:

, .

Піднесемо до квадрата обидві частини (117), встановивши математичне сподівання цього виразу. Отримаємо значення дисперсії помилки:

. (118)

Дві інші коваріації зникають, бо за гіпотезою, що є незалежною від , її коваріації з та дорівнюватимуть нулю.

Раніше ми вже показували, що дисперсія параметрів відповідно дорівнює:

параметра b1:

параметра b0:

Покажемо, що ;

тому, що

Звідси маємо .

Підставляючи у (118) явний вигляд дисперсій та коваріацій, отримаємо:

(119)

Як видно з (119), дисперсія помилки прогнозу буде мінімальною, якщо , та зростає нелінійно в міру того, як віддаляється від свого середнього значення .

З (117) видно, що є функцією багатьох параметрів, розподілених за нормальним законом, звідки випливає, що помилка також розподілена нормально з математичним сподіванням 0 та дисперсією .

Шляхом уже відомого перетворення зведемо випадкову величину до нормально розподіленої з математичним сподіванням 0 та дисперсією 1:

(120)

Замінюючи в (120) на свою оцінку , отримаємо:

. (121)

Величина (121) буде вже розподілена за t-розподілом Ст’юдента з (n-2) ступенями вільності, де єдина невідома – величина . Для знайдемо інтервал довіри вже за відомою схемою, задавши рівень значимості , а саме:

(122)

Таким чином, формула (112) дає нам інтервал довіри для дійсного значення залежної змінної.

На практиці більше застосовується побудова інтервалів довіри для математичного сподівання , тобто побудова інтервалів довіри для:

, (123)

тому що, власне кажучи, немає великого сенсу прогнозувати точне значення , беручи до уваги випадковий характер .

У такому разі, помилка прогнозу відповідно буде дорівнювати:

що дає:

(124)

і дозволяє побудувати інтервал довіри для при -ному рівні значимості у вигляді:

(125)

Проілюструємо наші викладки на прикладі залежності обсягів ралізації продукції від витрат на рекламу.

Нагадаємо, що побудована модель має вигляд: .

Знайдемо прогнозне значення обсягів реалізації продукції при витратах на рекламу . Відповідно . Побудуємо інтервали довіри для залежної змінної. Для цього знайдемо оцінку дисперсії залежної змінної, яка дорівнює, як ми показували раніше, оцінці дисперсії помилки:

Тепер задамо рівень значимості, наприклад . За таблицею t–розподілу Ст’юдента знаходимо , критичне при (5-2=3) ступенях вільності, яке дорівнюватиме =3.18

Відповідно інтервал довіри для залежної змінної дорівнюватиме

ВЛАСТИВОСТІ МЕТОДУ НАЙМЕНШИХ КВАДРАТІВ

Найпоширеніші критерії порівняння методів оцінювання

Розглянемо властивості методу найменших квадратів та проаналізуємо, які оцінки невідомих параметрів b0 та b1 ми отримуємо, переходячи відокремої вибірки до множини вибірок.

Повернемося до нашого прикладу. Ми розглядали, як залежать обсяги реалізованої продукції від витрат на рекламу. Цю залежність ми встановили, маючи у розпорядженні лише кілька вибіркових даних. Чи можна поширити наші висновки, наприклад, на ринок усієї країни? Тобто чи будуть наші висновки сталими? Як на них впливає збільшення або зменшення спостережень? Чи отримаємо ми ті самі результати, якщо зробимо таку саму вибірку, але в інші проміжки часу? На всі ці запитання можна дати позитивну відповідь у разі, якщо метод оцінювання невідомих параметрів буде найкращим з можливих при певних припущеннях. Отже, нам варто детально розглянути властивості методу найменших квадратів. Зразу ж зазначимо, метод найменших квадратів не є єдино можливим для оцінювання невідомих параметрів простої лінійної регресії, але він має ряд дуже важливих властивостей, що роблять його класичним методом оцінювання. В чому ж вони полягають? І взагалі, якими мають бути критерії, які свідчать про те, що один з методів оцінювання кращий за інші?

Найпоширенішими критеріями для аналізу методів оцінювання в економетриці є такі:

1) відсутність відхилення; 2) найменша дисперсія; 3) ефективність; 4) найкраща лінійна оцінка без відхилення (BLUE); 5) найменша середня квадратична помилка (MSE); 6) достатність.

Пояснимо ці критерії детальніше.

Метод оцінювання без відхиленб

Розумітимемо під відхиленням для методу оцінювання різницю між очікуваним та дійсним значенням параметра.

Відхилення

Метод оцінювання вважається таким, що не має відхилення, коли відхилення дорівнює нулеві, тобто коли

Оцінювання без відхилення є важливою властивістю, але не за своїм змістом, а в результаті комбінації з малою дисперсією.

Оцінювання з найменшою дисперсією

Метод оцінювання дає найкращі результати в тому разі, коли він забезпечує найменшу дисперсію порівняно з іншими методами.

Символічно b є найкращою, коли

або ,

де є іншою, не обов’язково без відхилення, оцінкою параметра

Ефективна оцінка

Оцінка є ефективною, коли вона має обидві властивості, тобто не має відхилення та має найменшу дисперсію порівняно з іншими оцінками.

Симвалічно b є ефективною оцінкою, коли:

а) Е(b)=b;

б) ,

де b* – інша оцінка без відхилення, правильного значення b.

Іншими словами, ефективна оцінка є найкращою серед оцінок без відхилень.

Найкраща лінійна оцінка без відхилень (BLUE) (best liner unbiased estimator)

Оцінка є BLUE, коли вона без відхилення має найменшу дисперсію та є лінійною функцією від значень, які спостерігаються.

Наприклад, при значеннях у1, у2,…,уn, лінійна оцінка має вигляд: , де – константи.

Оцінка з мінімальною середньою квадратичною помилкою, MSE – оцінка

МSE – критерій є комбінацією властивостей оцінок без відхилень та мінімальною дисперсією.

Оцінка є мінімальною MSE-оцінкою, якщо вона має найменше значення: .

Можна показати, що MSE дорівнює дисперсії оцінки плюс квадрат відхилення, тобто: .

Покажемо це:

але

, тому що

Тоді

Достатність оцінки

Оцінка є достатньою, коли вона використовує всю вибіркову інформацію. Достатність сама по собі не є важливою ознакою, але вона є необхідною умовою ефективної оцінки.

Властивості оцінок, отриманих за методом найменших квадратів

Теорема Гауса-Маркова показує, що оцінки, отримані за методом найменших квадратів, є BLUE–оцінками, коли виконуються основні припущення щодо випадкової величини e. Тобто оцінки, розраховані за методом найменших квадратів, мають такі властивості: вони лінійні, без відхилень, мають найменшу дисперсію з усіх можливих методів оцінювання.

Таким чином, метод найменших квадратів є найкращим методом для оцінювання невідомих параметрів простої лінійної регресії.

ОСНОВНІ ФОРМУЛИ

Узагальнена регресійна модель:

Вибіркова лінійна регресійна модель:

Оцінка параметрів, обчислених за методом найменших квадратів:

Сума квадратів, що пояснює регресію:

Сума квадратів помилок:

Загальна сума квадратів:

Коефіцієнт детермінації:

Коефіцієнт кореляції:

t–тест Ст’юдента для перевірки, чи :

t–тест Ст’юдента для перевірки, чи значимо bi відрізняється від нуля:

F-тест для перевірки регресійної моделі на адекватність:

t-тест для перевірки значимості коефіцієнта кореляції:

Інтервал довіри для математичного сподівання значення у:

Інтервал довіри для окремого значення у:

Приклади використання багатофакторного регресійного аналізу на практиці

При аналізі та прогнозуванні доходу консолідованого бюджету України необхідно дослідити вплив на його величину податків на додану вартість, податків на доходи підприємств, податків з населення, акцизного збору, Чорнобільського, пенсійного фонду та інші, тобто здійснити багатофакторний аналіз.

Проблема лібералізації цін залишається досить актуальною для України. На відміну від стабілізації валюти та приватизації, необхідність яких була загальновизнаною, лібералізація цін довго залишалася неузгодженим питанням для прихильників різних поглядів на розвиток економіки України. Для дослідження процесу лібералізації цін на ринках України також важливо виявити та дослідити вплив різноманітних факторів, таких, наприклад, як відхилення у відсотках ринкового обмінного курсу валют від встановленого державою (можна вважати цифру відхилення аналогією до відповідного “податку” на операції з обміну валют), від обмеження експорту (цей показник розраховується як частка експорту, що здійснюється за ліцензіями та встановленими державою квотами), від адміністративного контролю за внутрішньою торгівлею (частка загального випуску продукції, що здійснюється за державними замовленнями і контрактами, а не за рішеннями підприємств), від контролю за цінами роздрібної торгівлі (частка загального випуску продукції, що підлягає державному управлінню), від контролю за оптовими цінами, від частки валютних операцій, що здійснюються через неринкові, адміністративні механізми, та ін.

За допомогою багатофакторної регресії можна аналізувати численні соціальні проблеми. Але треба підкреслити, що складність розрахунків та узагальнення інформації призводять до необхідності широкого використання обчислювальної техніки. Тому побудова та аналіз багатофакторних регресійних моделей базуються на сучасних пакетах прикладних програм. Економіст-статистик повинен уміти аналізувати отримані результати та робити за ними висновки, вміти оцінити найкращу модель для взаємозвязку вихідних статистичних даних.

КЛАСИЧНА ЛІНІЙНА БАГАТОФАКТОРНА МОДЕЛЬ.

ОСНОВНІ ПРИПУЩЕННЯ У БАГАТОФАКТОРНОМУ РЕГРЕСІЙНОМУ АНАЛІЗІ

Узагальнена багатофакторна лінійна регресійна модель може бути записана у такому вигляді:

(1)

де у – залежна змінна;

– незалежні змінні (або фактори);

– параметри моделі (константи), які потрібно оцінити;

e – неспостережувана випадкова величина.

Нагадаємо, що узагальнена регресійна модель – це модель, яка дійсна для всієї генеральної сукупності. Невідомі параметри узагальненої моделі є константами, а випадкова величина – неспостережувана, і ми можемо зробити тільки припущення щодо закону її розподілу. На відміну від узагальненої регресійної моделі, вибіркова модель будується для певної вибірки; невідомі параметри вибіркової моделі є випадковими величинами, математичне сподівання яких дорівнює параметрам узагальненої моделі (випадок класичної лінійної регресії), випадкові величини (помилки) можна оцінити, виходячи з вибіркових даних.

Відповідно до позначень, введених у розділі 2, вибіркова лінійна багатофакторна модель має такий вигляд:

де у – залежна змінна; – незалежні змінні (або фактори); – оцінки невідомих параметрів узагальненої моделі;

е – випадкова величина (помилка).

Лінійною регресійною моделлю називається модель, лінійна за своїми параметрами.

За введеними нами позначеннями, багатофакторна лінійна регресійна модель має р незалежних змінних, або факторів, які впливають на залежну змінну у, та невідомих параметрів, які потрібно оцінити.

Основні припущення у багатофакторному регресійному аналізі

Як було вже сказано, у разі узагальненої регресійної моделі, тобто моделі, дійсної для всієї генеральної сукупності, випадкова величина e є неспостережуваною величиною, і ми можемо зробити лише деякі припущення щодо її поведінки та закону розподілу. Для класичної багатофакторної регресійної моделі, яка є узагальненням простої лінійної регресійної моделі, всі основні класичні припущення зберігаються, але дещо модифікуються. Розглянемо ці припущення.

Припущення 1

Математичне сподівання випадкової величини e дорівнює 0.

для кожного і,

Припущення 2

Випадкові величини незалежні між собою.

;

Припущення 3

Модель гомоскедастична, тобто має однакову дисперсію для будь-якого спостереження:

Припущення 4

Коваріація між випадковою величиною та кожною незалежною змінною х дорівнює 0.

Зазначимо, що властивість 4 виконується автоматично, якщо не стохастичні та припущення 1 має силу.

Припущення 5

Модель повина бути правильно специфікованою.

Припущення 6

Випадкова величина e відповідає нормальному закону розподілу з нульовими математичним сподіванням і постійною дисперсією.

Припущення 7

Відсутність мультиколінеарності між факторами х, тобто фактори повинні бути незалежними між собою. Іншими словами, не повинно бути точного лінійного зв’язку між двома або більше факторами.

Слід зазначити, що припущення 7 не прийнятне для простої лінійної регресії, але воно надзвичайно важливе для багатофакторної регресії. Зважаючи на це, розглянемо його детальніше.

Припустимо, що є лінійна залежність між факторами х1 та х В такому випадку неможливо точно визначити окремий вплив кожного з цих факторів на залежну змінну у. Графічно це можна подати, виходячи з кругової діаграми (мал. 1).

Малюнок 1. Зв’язок між факторами: а – відсутність залежності між факторами х1 та х2; б – наявність такої залежності.

На малюнку 1 зображемо два випадки. У випадку а відсутня залежність або колінеарність між х1 та х2; у випадку б – вона наявна. У випадку а підмножина 1 описує окремий вплив фактора х1 на залежну змінну у, а підмножина 2 – окремий вплив фактора х При наявності колінеарності (випадок б) підмножина 3 описує окремий вплив фактора х1, а підмножина 5 – окремий вплив фактора х Підмножина 4 характеризує спільний вплив обох факторів на змінну у, який не можна відокремити. Саме підмножина 4 графічно описує ситуацію колінеарності. Коли ця підмножина дорівнює 0, то колінеарності немає, що ми і бачимо на мал. 1 у випадку а.

Математично відсутність колінеарності між двома факторами, наприклад факторами х1 та х2, визначається таким чином, що не існує чисел g1 та g2, які одночасно не дорівнюють 0, для яких би виконувалась тотожність

(2)

Іншими словами, якщо тотожність (2) виконується тільки тоді, коли , то х1 та х2 лінійно незалежні, або неколінеарні. У протилежному разі має місце колінеарність.

Інтуїтивно встановлюємо, що коли між двома змінними, наприклад х1 та х2, є лінійний зв’язок, то йдеться не про дві, а одну незалежну змінну, бо неможливо знайти окремий вплив кожної з цих змінних на у.

Покажемо це. Нехай незалежність між х1 та х2 має вигляд: . Тоді вираз (1) можна переписати у вигляді:

(3)

Якщо бачимо з (3), кількість змінних зменшилась на 1, а параметр є оцінкою спільного впливу х1 та х2 на у, який не можна розділити.

ЕТАПИ ПОБУДОВИ БАГАТОФАКТОРНОЇ РЕГРЕСІЙНОЇ МОДЕЛІ

Процес побудови багатофакторної регресійної моделі більш складний, ніж процес побудови простої лінійної регресії. Він складається з багатьох етапів. Серед них можна виділити такі.

1. Вибір та аналіз усіх можливих факторів, які впливають на процес (або показник), що вивчається.

Вибір та аналіз знайдених факторів.

3. Математико-статистичний аналіз факторів.

Вибір методу та побудова регресійної багатофакторної моделі.

5. Оцінка невідомих параметрів регресійної моделі.

6. Перевірка моделі на адекватність.

7. Розрахунок основних характеристик та побудова інтервалів довіри.

8. Аналіз отриманих результатів, висновки.

Розглянемо детально кожний з етапів побудови та аналіз багатофакторної регресійної моделі.

Перший етап складається з вибору всіх можливих факторів, які впливають на процес або показник, що вивчається. На цьому етапі дослідник повинен глибоко зрозуміти сам економічний процес, розглянути його з макроекономічних та мікроекономічних позицій; виявити якомога більше факторів, які в конкретному випадку можуть справити суттєвий або несуттєвий вплив на його зміну. На цьому етапі можуть знадобитися поради практиків, які працюють у галузі або на фірмі, що вивчається, і т. ін. Після того, як множина всіх факторів окреслена, переходять до другого етапу – кількісного аналізу відібраних факторів.

На етапі кількісного аналізу дослідник повинен оцінити можливість кількісного вираження факторів, провести вимірювання або зібрати статистику для кількісних факторів; підібрати або розробити бальну шкалу оцінок для якісних даних. Якщо деякі фактори неможливо кількісно виразити, наприклад імідж продукції у населення, їх треба вилучити з подальшого розгляду. З подальшого розгляду вилучаються також фактори, за якими немає або недоступна статистика.

Після того, як усі фактори проаналізовано, подано у кількісному вигляді, тобто у вигляді динамічних або варіаційних рядів, переходять до третього етапу – етапу математико-статистичного аналізу.

Етап математико-статистичного аналізу є найважливішим підготовчим етапом для побудови регресійної багатофакторної моделі. Це заключний етап формування необхідної інформаційної бази.

При наявності у динамічних рядах недостатньої інформації саме на цьому етапі за допомогою спеціальних методів проводиться її відтворення. На цьому етапі проводиться перевірка основних припущень класичного регресійного аналізу, крім того, здійснюється найважливіша процедура багатофакторного аналізу – перевірка факторів на мультиколінеарність. Для цього спочатку будується матриця коефіцієнтів парної кореляції, яка є симетричною і має такий вигляд:

де R – матриця кореляції; ; – коефіцієнт парної кореляції між і-м та j-м факторами; – коефіцієнт кореляції між залежною змінною у та j-м фактором.

Потім аналізуються коефіцієнти парної кореляції між факторами. Якщо зазначення деяких з них близьке до 1, це вказує на щільний зв’язок між ними, або на мультиколінеарність. Тоді один з факторів необхідно залишити, а інший вилучити із подальшого розгляду. Постає питання: який саме? Це залежить від конкретної ситуації. Найчастіше залишають той фактор, який з економічної точки зору більш вагомий для аналізу впливу на залежну змінну. Можна також залишити фактор, який має більший коефіцієнт кореляції із залежною змінною у. Такий аналіз проводиться для кожної пари залежних між собою факторів. Результатом етапу математико-статистичного аналізу є знаходження множини основних незалежних між собою факторів, які є базою для побудови регресійної моделі.

Метод побудови регресійної багатофакторної моделі неможливо відокремити від самої моделі, вони найтіснішим чином пов’язані між собою. Іншими словами, саме обраний метод впливає на остаточний вигляд регресійної моделі. Це ми розглядатимемо дещо пізніше.

Оцінка невідомих параметрів здійснюється у лінійних регресійних моделях за методом найменших квадратів, уже відомим із розділу простої лінійної регресії.

Після того, як параметри знайдено, проводиться перевірка моделей на адекватність за допомогою F – критерію Фішера, а також перевірка значимості знайдених параметрів за t-критерієм Ст’юдента. Якщо модель неадекватна, то необхідно повернутися до етапу побудови моделі і, можливо, від лінійної моделі перейти до нелінійної, або ввести додаткові фактори.

Якщо модель адекватна, то можемо працювати далі: робити прогнозування, вивчати вплив окремих факторів на залежний показник, будувати інтервали довіри, аналізувати та інтерпретувати отримані результати. Для того, щоб розглянути, як можна проінтерпретувати параметри регресійної моделі, повернемося до загальної моделі багатофакторного регресійного аналізу (1) та знайдемо математичне очікування обох частин. Виходячи з основних припущень, отримаємо:

(4)

Рівняння (4) дає умовне математичне сподівання у при фіксованих значеннях х.

Параметри ще називають коефіцієнтами регресії. Кожний з них вимірює вплив відповідної змінної за умови, що всі інші залишаються, тобто є константами.

4 РОЗРАХУНОК НЕВІДОМИХ ПАРАМЕТРІВ БАГАТОФАКТОР-

НОЇ РЕГРЕСІЇ ЗА МЕТОДОМ НАЙМЕНШИХ КВАДРАТІВ (МНК)

Нехай маємо ряд спостережень за залежною змінною та за незалежними змінними, або факторами:

На підставі цих спостережень побудуємо лінійну вибіркову багатофакторну модель, а саме:

(5)

де у – залежна змінна; – незалежні змінні, або фактори; – невідомі параметри; е – випадкова величина, або помилка.

Як і у випадку простої лінійної регресії, знайдемо невідомі параметри за методом найменших квадратів, тобто мінімізуючи суму квадратів відхилень фактичних даних від теоретичнтх (даних, які ми отримуємо з регресійної моделі):

(6)

Для того, щоб знайти мінімум виразу (6), необхідно прирівняти до нуля часткові похідні функції F за аргументами Отримаємо систему нормальних рівнянь. Зважаючи на досить громізкий вигляд системи нормальних рівнянь у загальному випадку, ми не будемо її наводити. Загальний вираз для розрахунку невідомих параметрів моделі розглянемо пізніше, коли повернемося до матричного підходу в багатофакторному аналізі. Зазначимо тільки, що перетин (параметр b0) розраховується аналогічно до простої регресії за допомогою середніх значень:

ВЛАСТИВОСТІ МЕТОДУ НАЙМЕНШИХ КВАДРАТІВ

Властивості методу найменших квадратів у випадку багатофакторної регресії збігаються з його властивостями у випадку простої лінійної регресії:

Властивість 1. Багатофакторна регресійна модель правильна для середніх точок

Тобто для моделі

маємо: (8)

Властивість Середнє значення оцінки дорівнює середньому значенню фактичних даних, тобто

Це легко показати:

(9)

Просумуємо обидві частини (9) за і і, виходячи з того, що ; для , отримаємо .

Для пояснення решти властивостей введемо позначення.

Позначимо , тоді рівність (9) можна переписати:

(10)

де

На основі (10) багатофакторну вибіркову модель (5) можна записати у формі:

(11)

Властивість 3. Сума помилок дорівнює нулю. (Це випливає з (11)).

Властивість Помилки некорельовані з тобто

Властивість 5. Помилки некорельовані з , тобто

Властивість 6. Якщо правильні припущення класичної лінійної регресійної моделі, то МНК-оцінки є не тільки лінійними, без відхилень оцінками, а й мають найменшу дисперсію, тобто є BLU-оцінками

КОЕФІЦІЄНТ МНОЖИННОЇ КОРЕЛЯЦІЇ ТА ДЕТЕРМІНАЦІЇ

Корисною мірою ступеня відповідності даних , отриманих з регресійної моделі, фактичним даним є коефіцієнт множинної кореляції, який визначається як коефіцієнт кореляції між у та і має вигляд:

(12)

Квадрат коефіцієнта множинної кореляції, як і у випадку простої регресії, називають коефіцієнтом детермінації і позначають через R Можна показати, що вигляд коефіцієнта детермінації у випадку багатофакторної регресії ідентичний коефіцієнту детермінації простої лінійної регресії:

. (13)

Розглянемо вибіркову багатофакторну модель

, (14)

де – оцінка фактичного значення, або прогнозне чи теоретичне значення.

Замінюючи на його вираз через середні значення

і підставляючи даний вираз у (14), отримаємо:

(15)

Замінюємо на , а на , тоді (15) можна переписати у вигляді:

(16)

Піднесемо обидві частини (16) до квадрата і просумуємо за всіма значеннями. Отримаємо:

(17)

Виходячи з позначень, які ми раніше вводили для простої лінійної регресії, отримаємо:

(18)

де ; ;

Тепер легко можна побачити, що, як і у випадку простої лінійної регресії, коефіцієнт детермінації дорівнює:

(19)

КОЕФІЦІЄНТ ДЕТЕРМІНАЦІЇ R2 ТА ОЦІНЕНИЙ КОЕФІЦІЄНТ

ДЕТЕРМІНАЦІЇ

Важливою властивістю коефіцієнта детермінації R2 є те, що він – неспадна функція від кількості факторів, які входять до моделі. Якщо кількість факторів зростає, то R2 також зростає і ніколи не зменшується.Тобто, якщо ми додаємо новий фактор у регресійну модель, це тільки збільшує значення коефіцієнта детермінації R2, що легко побачити з його визначення:

(20)

У виразі (20) знаменник не залежить від кількості факторів х, тоді як чисельник, навпаки, залежить. Інтуїтивно можна зрозуміти, що якщо кількість факторів х зростає, величина спадає (або хоча б не зростає). Якщо ми порівнюватимемо дві регресійні моделі з однаковою залежною змінною, але різною кількістю факторів х, то, звичайно, віддамо перевагу тій, яка має більше значення R

Зразу ж постає питання, що робити, якщо ми хочемо порівняти значення коефіцієнтів детермінації в різних моделях. У таких випадках потрібно коригувати коефіцієнт кореляції з урахуванням кількості факторів х, які входять у різні моделі, тобто зменшити вплив залежності значення коефіцієнта детермінації від кількості факторів. Для цього вводиться спеціальний коефіцієнт детермінації, який має вигляд:

, (21)

де k – кількість параметрів регресійної моделі, включаючи перетин.

На відміну від простого коефіцієнта детермінації, оцінений коефіцієнт детермінації корегується з урахуванням ступенів вільності суми квадратів залишків та загальної суми квадратів. Як бачимо у виразі (21), суми квадратів у чисельнику та знаменнику діляться на відповідні ступені вільності, в яких враховується кількість факторів, що входять до моделі.

Вираз (21) можна записати ще таким чином:

, (22)

де – оцінена дисперсія залишків; – вибіркова дисперсія незалежної змінної у.

Легко помітити, що оцінений коефіцієнт детермінації та коефіцієнт детермінації пов’язані між собою такою залежністю:

(23)

З виразу (23) видно, якщо k > 1, то . Крім того, якщо кількість факторів х зростає, оцінений коефіцієнт детермінації зростає повільніше, ніж просто коефіцієнт детермінації. Таким чином, зменшується вплив кількості факторів на величину коефіцієнта детермінації, тому на практиці більше використовують оцінений коефіцієнт детермінації, особливо при порівнянні різних регресійних моделей. Слід зазначити, що оцінений коефіцієнт детермінації може бути і негативним, на відміну від R2, який має позитивне значення. Крім того, коли оцінений коефіцієнт кореляції також дорівнює одиниці. Коли прямує до негативної величини, прямує до нуля.

Для того, щоб розібратись, як на практиці порівнюють значення коефіцієнтів детермінації в різних моделях, розглянемо приклад. Ще раз нагадаємо, що порівняти значення двох або більше коефіцієнтів детермінації (оцінених або ні) можна лише за однакових залежних змінних, які можуть набирати різних функціональних форм.

Наприклад, нехай ми маємо такі дві моделі:

(24)

(25)

Розрахованні коефіцієнти детермінації в цих моделях не можна порівняти між собою. Пояснимо чому. За означенням, коефіцієнт детермінації є частиною дисперсії, що пояснює регресію в загальній дисперсії (дисперсії залежної змінної). Таким чином, коефіцієнт детермінації моделі (24) вимірює частку дисперсії , яку можна пояснити факторами тоді як у моделі (25) він вимірює частку дисперсії у. Але це не одне й те саме. Зміна в забезпечує відносну зміну у, тоді як зміна в самому у є абсолютною зміною. Таким чином, величина не буде дорівнювати величині . Справді, відповідні коефіцієнти детермінації дорівнюватимуть для моделі (25):

, (26)

а для моделі (24):

, (27)

Знаменники у (26) та (27) різні, отже, коефіцієнти детермінації порівняти не можна. Як бути у такому разі? Для того, щоб порівняти коефіцієнти детермінації регресійних моделей (24) та (25), необхідно, по-перше, знайти за моделлю (24), обчислити антилогарифм; по-друге, розрахувати коефіцієнт детермінації між антилогарифмом та значенням .

Знайдений таким чином коефіцієнт детермінації можна порівнювати з коефіцієнтом детермінації регресійної моделі (25).

Можна піти і зворотним шляхом: обчислити за моделлю (24) розрахувати , обчислити за формулою (13), а його в свою чергу можна порівнювати з , знайденим для моделі (25).

ANOVA-ДИСПЕРСІЙНИЙ АНАЛІЗ

Елементарна ANOVA-таблиця у випадку багатофакторної регресії має такий вигляд (табл. 1).

Таблиця 1

Джерело варіації	Суми квадратів	Ступені вільності	Середні квадрати
Модель
Помилка
Загальне

де k – кількість параметрів регресійної моделі, включаючи перетин.

З ANOVA-таблиці можна легко отримати вираз як для простого коефіцієнта детермінації , так і для оціненого.

Для цього спочатку ще раз пригадаємо формулу розподілу сум квадратів та вираз для коефіцієнта детермінації:

(28)

; (29)

. (30)

З ANOVA-таблиці дисперсійного аналізу (табл. 1) видно, що у випадку багатофакторної регресії сума квадратів залишків має ступенів вільності, а загальна сума квадратів ступенів вільності.

Оцінений, як ми вже показували раніше, коефіцієнт детермінації – це коефіцієнт, у якого відповідні суми квадратів скориговані на їхні ступені вільності, тобто:

(31)

ПЕРЕВІРКА МОДЕЛІ НА АДЕКВАТНІСТЬ ЗА F-КРИТЕРІЄМ

ФІШЕРА

Для перевірки адекватності багатофакторної регресійної моделі, як і у випадку простої лінійної моделі, використовується F-критерій Фішера.

При цьому нуль-гіпотеза узагальнюється і має вигляд:

проти альтернативної гіпотези хоча б одне значення відмінне від нуля.

Якщо нуль-гіпотеза не правильна, то тоді правильна гіпотеза , тобто не всі параметри незначною мірою відрізняються від нуля, що дає підставу вважати, що відібрані фактори пояснюють зміну залежної величини у. Для перевірки -гіпотези розраховується F-статистика Фішера з р та ступенями вільності:

. (32)

де р – кількість факторів, які увійшли в модель; n – загальна кількість спостережень.

За F–таблицями Фішера, як і у випадку простої регресії, знаходимо критичне значення з р та ступенями вільності, задавши попередньо рівень помилки (або рівень довіри ).

Якщо , тоді нуль-гіпотеза відкидається, що свідчить про адекватність побудованої моделі. У протилежному випадку вона приймається і модель вважається неадекватною.

Зв’язок між коефіцієнтом детермінації та

F-відношенням Фішера.

Покажемо, що між коефіцієнтом детермінації та F-відношенням Фішера є зв’язок. Розпишемо вираз (32), попередньо замінивши р на , а на , де k – кількість параметрів, включаючи перетин.

Зазначимо, що ступені вільності ми виразили через кількість параметрів моделі, що підлягають оцінці. Виходячи з (32), отримаємо:

(33)

де

Рівняння (33) показує, що F-відношення та коефіцієнт детермінації пов’язані між собою. Коли , то F також дорівнює 0.Таким чином , F-тест, який є мірою адекватності регресійної моделі, є також мірою статистичної значимості коефіцієнта детермінації R

Використовуючи (33), можемо тестувати адекватність моделі, виходячи лише з одного відомого значення R2, що значно полегшує розрахунки. Розглянемо такий випадок детальніше.

Тестування адекватності багатофакторної регресійної моделі, виходячи із значення R2

Маємо регресійну багатофакторну модель

Нехай нам відоме значення коефіцієнта детермінації Для того, щоб перевірити модель на адекватність, протестуємо нуль-гіпотезу.

проти альтернативної гіпотези Н1: не всі параметри одноразово дорівнюють 0.

Насамперед потрібно розрахувати F–відношення Фішера. Розрахуємо його тільки на підставі відомого значення коефіцієнта детермінації за формулою (33):

За F-таблицями Фішера знаходимо яке є критичним значенням F при заданому рівні помилки a та відповідно і ступенями вільності.

Якщо тоді відкидаємо гіпотезу Н0, у протилежному випадку ми приймаємо її. Отже, тестуємо адекватність моделі, використовуючи тільки коефіцієнт детермінації.

МАТРИЧНИЙ ПІДХІД ДО ЛІНІЙНОЇ БАГАТОФАКТОРНОЇ

РЕГРЕСІЇ

10.1. Запис лінійної багатофакторної регресії у матричному вигляді

Лінійну багатофакторну модель, як і основні проблеми регресійного аналізу, зручно розглядати за допомогою теорії матриць.

Запишемо модель (1) для кожного окремого спостереження:

(34)

де – і-е значення залежної змінної;

невідомі параметри;

і-е значення j-го фактора; ;

– і-е значення випадкової величини.

Рівняння (34) є скороченим записом такої системи:

(35)

– вектор-стовпець розмірності спостережень за незалежною змінною у;

– матриця розмірності n спостережень за р змінними де перший стовпець вміщує значення 1 для отримання перетину. Матриця Х ще називають матрицею спостережень.

– вектор розміру невідомих параметрів.

– вектор розміру n випадкових величин .

Виходячи з введених позначень для (35), отримаємо:

(36)

Вираз (36) зручно переписати у вигляді:

(37)

Вираз (37) є записом простої лінійної багатофакторної регресії у матричному вигляді.

10. Припущення класичної лінійної багатофакторної

регресії у матричному вигляді

Запишемо основні припущення у матричному вигляді

Припущення 1

Математичне сподівання і-го значення випадкової величини eі дорівнює нулеві, або математичне сподівання вектора випадкових величин дорівнює нулеві :

(38)

Припущення 2

Випадкові величини незалежні між собою. У матричному вигляді це можна записати таким чином:

(39)

де – транспланований вектор-стовпець випадкових величин, тобто вектор-рядок.

Розписавши (39), отримаємо:

(40)

Застосовуючи оператор математичного сподівання до кожного елемента матриці, з огляду на властивості гомоскедастичності та відсутність зв’язку між випадковими величинами отримаємо:

(41)

де І – одинична матриця розмірності .

Матриця (40) або інший її вигляд (41) називається дисперсійно-коваріаційною матрицею випадкових величин . Діагональні елементи цієї матриці – дисперсії, а всі інші – коваріації. Зазначимо, що дисперсійно-коваріаційна матриця симетрична відносно своєї головної діагоналі.

Припущення 3

Матриця Х розміру не стохастична, тобто вона утворюється з фіксованих елементів

Припущення 4

Відсутність мультиколінеарності означає, що ранг матриці Х дорівнює , тобто кількості стовпців матриці. А це означає, що стовпці матриці лінійно незалежні, тобто немає лінійного зв’язку між х змінними, отже, не знайдеться таких чисел серед яких не всі дорівнюють нулеві, аби виконувалась тотожність

або в матричному відображенні

Припущення 5

Вектор випадкових величин має нормальний закон розподілу

Припущення щодо однакової дисперсії випадкових величин уже знайшло своє матричне відображення у припущенні

10.3 Оцінювання невідомих параметрів у багатофакторній регресії

Для того, щоб знайти оцінки параметрів , запишемо вибіркову регресійну багатофакторну модель.

, (42)

яка має такий матричний вигляд:

, (43)

де b – вектор-стовпець параметрів, оцінений за методом найменших квадратів; e – вектор-стовпець помилок розміру

Вектор невідомих параметрів ми знаходимо методом найменших квадратів, мінімізуючи суму квадратів залишків:

(44)

де , що у матричному вигляді запишеться так:

З (43) отримаємо:

Звідси

, (45)

де, враховуючи властивості транспланованих матриць,

Вираз (45) є матричним відображенням (44)

Таким чином, у матричній формі метод найменших квадратів полягає у визначенні такого вектора, для якого буде мінімальною. Тобто, прирівнявши часткові похідні, ми отримаємо нормальну систему рівнянь з невідомими:

;

; (46)

…………………………………………….

;

Розпишемо (46) у матричному вигляді:

(47)

що скорочено можна записати:

. (48)

Якщо зворотна матриця до існує, то, помноживши обидві частини (48) на цю матрицю, отримаємо:

, (49)

де – одинична матриця розміру , що дає:

; (50)

Рівняння (50) є фундаментальним результатом для визначення невідомих параметрів у матричному вигляді.

Вектор невідомих параметрів може бути отриманий з (50) або з (44) шляхом диференціювання за кожним параметром та прирівнювання часткових похідних до нуля.

10. Дисперсійно – коваріаційна матриця параметрів регресії

Застосування теорії матриць допомагає не тільки знайти дисперсії параметрів b, а й встановити коваріації між двома попарними їхніми значеннями, тобто між та .

За означенням дисперсійно-коваріаційна матриця для b є:

що можна записати:

, (51)

Можна показати (доведення ми не наводимо), що

, (52)

де – дисперсія випадкової величинм ;

– зворотна матриця до матриці .

1 ПОБУДОВА ІНТЕРВАЛІВ ДОВІРИ ДЛЯ ПАРАМЕТРІВ

11. Поняття про t – тест Ст’юдента. Перевірка нуль – гіпотези за допомогою t – тесту Ст’юдента.

Як було показано в параграфі 10, випадкові параметри b0 і b1 розподілені за нормальним законом розподілу з відповідним математичним сподіванням та дисперсії, що формально можна записати таким чином:

(94)

(95)

У виразі (94), (95) дисперсія параметрів b0 і b1, загалом, невідома, тому що вона залежить від дисперсії помилок випадкової величини , яку не можна спостерігати. Як уже говорилося вище (параграф 11), невідома дисперсія замінюється на свою оцінку . Таким чином, і для параметрів b0 і b1 дійсна дисперсія замінюється на свою оцінку:

(96)

(97)

Встановлені значення параметрів вибіркової моделі є оцінками параметрів узагальненої регресійної моделі. Постає питання: чи можна знайти інтервали довіри для параметрів узагальненої моделі, тобто інтервали, у які із заданою імовірнітю потрапляють їхні значення? Справді, така можливість є і широко використовується у практичних дослідженнях. Інтервали довіри можна будувати за допомогою кількох тестів.

Щоб зрозуміти суть побудови інтервалів довіри для параметрів регресійної моделі, розглянемо спочатку один з найпоширеніших тестів – t–тест Ст’юдента у загальному випадку.

Розглянемо довільну випадкову величину, розподілену за нормальним законом розподілу з математичним сподіванням а та дисперсією . Як ми вже знаємо, нормально розподілену випадкову величину з математичним сподіванням а і дисперсією можна звести до нормально розподіленої величини з математичним сподіванням 0 і дисперсією 1 шляхом перетворення:

(98)

де хі – випадкова нормально розподілена величина з математичним сподіванням а і дисперсією , а zі – нормально розподілена випадкова величина з математичним сподіванням 0 і дисперсією 1.

Ще раз підкреслимо, що перетворення (98) дає нам нормально розподілені величини. Наприклад, для параметра b1 таке перетворення має вигляд:

де b1 – нормально розподілена випадкова величина з математичним сподіванням і дисперсією .

Якщо у формулі (98) ми використаємо замість невідомої дійсної дисперсії її оцінку , то при невеликій кількості вибіркових даних (n<30) ми перейдемо до іншого t – перетворення, тобто у загальному випадку матимемо:

(99) де хі – нормально розподілена величина з математичним сподіванням а і дисперсією ; ti – випадкова величина, розподілена за t-законом розподілу Ст’юдента з (n –1) ступенем вільності, де ступені вільності розраховуються за виразом оціненої дисперсії, а саме:

Перетворення (99) можна записати і для випадкової величини , якщо мати на увазі, що вона розподіляється за нормальним законом розподілу з математичним сподіванням а і дисперсією, тобто Тоді t-перетворення матиме вигляд:

(100) де t – випадкова величина, яка розподіляється за t-законом розподілу Cт’юдента з (n – 1) ступенями вільності.

t-розподіл – це симетричний розподіл із середнім нулю і дисперсією , яка наближається до 1, коли n – велике. Зрозуміло, що t – розподіл наближається до нормального закону розподілу, якщо .

Для використання t-тесту Ст’юдента необхідно:

– обрати бажаний рівень значимості (від 1 до 10%);

– визначити кількість ступенів вільності.

Володіючи цією інформацією, ми можемо визначити критичне значення t, яке поділяє усю множину значень на дві підмножини: множину, яку ми відкриваємо, і множину, яку ми приймаємо при заданому рівні значимості.

Приклад. Ми тестуємо нуль – гіпотезу, а саме:

проте альтернативної гіпотези

для вибірки з невідомою дисперсією.

Оберемо рівень значимості 5%. Критичне значення t знаходимо за таблицями t – розподілу Ст’юдента. Рядки цієї таблиці мають різні ступені вільності, а колонки відповідають різним рівням значимості. Наприклад, для 10 ступенів вільності і 5% рівня значимості відповідні критичні значення (мал. 11) дорівнюють t1=-228; t2= 228

Малюнок 11. Критична зона випадкової величини за t – розподілом Ст’юдента при 10 ступенях вільності і обраному рівні значимості 5%.

Зона, яку ми приймаємо, є такою:

За даними вибірки знаходимо і обчислюємо значення t–статистики:

Якщо значення потрапляє в критичну зону (в одну із заштрихованих), то можливі 2 випадки.

1. нуль – гіпотеза правильна, але сталася малоймовірна подія.

2. нуль – гіпотеза неправильна .

Ми беремо до уваги найпростіший випадок (випадок 2), тобто відкидаємо нуль – гіпотезу.

1 t–тест Ст’юдента для перевірки на значимість параметрів b0 і b1, визначиних за методом найменших квадратів.

Як зазначалося вище, параметри, визначені за методом найменших квадратів, розподіляються за нормальним законом розподілу, який формалізовано можна записати таким чином:

невідома дисперсія ;

невідома дисперсія

Нагадаємо,що у загальному випадку і невідомі, тому що не можна обислити , адже випадкові величини взагалі є неспостережуваними. Але ми можемо обчислити оцінку дисперсій і , тобто знайти:

; ,

де ; k – кількість оцінених параметрів (у разі простої регресії k=2).

Далі будуємо t–статистику для кожного параметра:

з ступенями вільності, (101)

де bi – оцінка параметра , отримана за методом найменших квадратів;

– гіпотетичне значення, якого має набути параметр ;

– оцінка дисперсії параметра (з регресії)

– розмір вибірки (кількість спостережень);

– загальна кількість оцінених параметрів ( у нашій моделі, бо ми використовуємо 2 ступені вільності, щоб оцінити 2 параметри b0 і b1).

У економетриці поширеною формою нуль – гіпотези є така:

проти альтернативної

(102)

Її значення порівнюємо з табличним значенням, яке дає змогу знайти критичну зону з ступенями вільності.

Якщо значення t* потрапляє не в критичну зону, тобто з ступенями вільності і при – ному рівні значимості (у загальному випадку), не можна стверджувати, що з імовірністю оцінка bi є статистично незначимою (тобто ми приймаємо нуль – гіпотезу) .

Двовибірний тест для нуль – гіпотези показано на мал. 12 .

Малюнок 1 Двовимірний тест для нуль-гіпотези з 5%-ним рівнем значимості

З мал.12 видно, що коли значення t* потрапляє в критичну (заштриховану) зону, то ми відкидаємо нуль – гіпотезу.

Використовуючи t–статистика (102) є ніщо інше, як відношення bi до оцінки свого стандартного відхилення, або, інакше кажучи, до свого середньоквадратичного відхилення.

У багатьох програмах поряд із значенням bi видають значення оцінки стандартного відхилення та відношення між bi і цією оцінкою. Це відношення називають t–значенням для відповідного параметра. Якщо воно перевищує критичне значення, яке ми знаходимо за таблицею, то приймаємо гіпотезу і оцінюємо відповідний параметр як статистично значимий. У разі простої лінійної регресії це також означає, що х має значимо впливає на зміну у.

Т-тест може бути спрощеним. Якщо уважно подивитись на t–таблицю Ст’юдента, то можна помітити, що значення t змінюється дуже повільно, коли кількість ступенів вільності більша ніж 8. Наприклад, t0.025 для 8 ступенів дорівнює 3, і прямує до 1.96, коли Справді, різниця між 3 і 1.96 є незначною. Тому для будь-якого значення можна вважати, що критичне значення t приблизно дорівнює

Тому за спрощення тестом ми відкидаємо нуль-гіпотезу, якщо

Іншими словами:

, якщо або.

Звідси ми можемо зробити висновок:

нуль-гіпотезу відкидаємо, якщо

або

нуль-гіпотезу відкидаємо, якщо .

Приклад. Нехай ми маємо вибірку з 20 спостережень за значеннями ВНП (х) і витрат на споживання (у). Припустимо, що наявність лінійного зв’язку, отже, і лінійна регресія після оцінки параметрів матиме вигляд:

Нехай, крім того, нам відомі всі характеристики та дані, які ми не наводимо.

Для перевірки параметрів на значимість використаємо t–тест Ст’юдента, а для цього знайдемо спочатку оцінку дисперсії кожного параметра:

;

Далі розраховуємо t–статистики, наприклад, для b1:

і перевіряємо нуль-гіпотезу

проти альтернативної гіпотези

Критичні значення t для (n–k)=18 дорівнюють відповідно:

;

Оскільки , ми відкидаємо нуль-гіпотезу і робимо висновок, що параметр b1 значно відрізняється від нуля, тобто знайдена його оцінка b1 є статистично значимою (мал. 13)

Малюнок 13. Встановлення критичної зони за t–cтатистики Ст’юдента для параметра b1.

За спрощеним t–тестом маємо:

, параметр b1 є статистично значимий.

Повернемося тепер до нашого прикладу про залежність обсягів реалізації продукції від витрат на рекламу та перевіримо на значимість кожний параметр. Нагадаємо, що знайдена модель має вигляд: у=10+3х.

Задамо рівень значимості а=0.025(5%). Нагадаємо, що кількість спостережень у нашому прикладі дорівнює п’яти, отже, кількість ступенів вільності дорівнює відповідно трьом (5-2). За t–таблицею розподілу Cт’юдента знайдемо – критичне з 3 ступенями вільності. Воно дорівнюватиме:

Розрахуємо t– відношення для кожного параметра, встановивши спочатку оцінку дисперсії та середньоквадратичного відхилення.

Для параметрів b1 маємо:

для параметра b0:

Тепер знайдемо t– відношення для кожного параметра.

, отже, параметр b1– статистично значимий.

Відповідно для параметра b0 маємо:

, отже, параметр b0 – також статистично значимий.

13. Знаходження інтервалів довіри для параметрів і за t–тестом Ст’юдента.

Для того щоб визначити, як же параметри b1 і b0 пов’язані з параметрами і , потрібно побудувати інтервали довіри для параметрів.

Процедура побудови інтервалів довіри є аналогічною процедурі тестування значимості знайдених параметрів простої вибіркової лінійної регресії.

Спочатку розраховуємо t– статистику для кожного з параметрів:

Потім обираємо рівень значимості (а або а.100%). Відповідно рівень довіри (сonfidence level) дорівнюватиме: або . За t– таблицею Cт’юдента знаходимо значення з (n-2) ступенями вільності. Тоді можна записати:

. (103)

У економетриці найчастіше використовують 95%-ний рівень довіри, що дозволяє переписати (103) у вигляді:

Проводячи заміну , отримаємо:

(104)

або:

з ступенями вільності:

для 95%-ного рівня довіри це можна записати таким чином:

Для ілюстрації повернемося до нашого прикладу про залежність обсягів реалізації продукції від витрат на рекламу та побудуємо інтервали довіри для кожного параметра. Нагадаємо, що знайдена модель має вигляд: .

Задамо рівень значимості . Оскільки кількість спостережень у нашому прикладі дорівнює п’яти, отже, кількість ступенів вільності відповідно дорівнюватиме трьом (5-2). За t–таблицею розподілу Ст’юдента знайдемо – критичне з 3-а ступенями вільності. Воно дорівнюватиме:

Розрахуємо дисперсії кожного параметра:

;

Тепер знайдемо інтервали довіри для параметра :

що означає:

Відповідно, для параметра маємо:

або

Зробимо висновок, що інтервали довіри для параметра сталіші, ніж для параметра .

Нехай Х – статистична величина, що характеризує вагу людини в кг, а Y – відповідно зріст в см, і двовимірний статистичний розподіл задається таблицею:

Наприклад, вазі 75 кг відповідає середній зріст:

см.

Приклад 2.

Бюро економічного аналізу кондитерської фабрики оцінює ефективність відділу маркетингу з продажу цукерок. Для такої оцінки вимагає досвід роботи у п’яти зонах з майже однаковими умовами. У цих зонах зафіксовано протягом певного періоду обсяги продажі (млн. коробок), витрати (млн. грн.) фірми та рух товару на ринку (дані наведені в таблиці).

Візуально можна припустити, що між даними є лінійна залежність, тобто її можна наближено зобразити прямою лінією. Взагалі, існує необмежена кількість прямих y=kx+b, які можна провести через множину точок спостережень. Яку з них вибрати? Щоб це визначити, потрібно мати у розпорядженні певний критерій, що дозволяв би вибрати з множини прямих “найкращу” з точки зору даного критерію. Найпоширенішим є критерій мінімізації суми квадратів відхилень. На рис. 1 видно, що на цих прямих є точки, розташовані таким чином, що деякі з них знаходяться вище, деякі нижче цієї прямої, на основі чого можна встановити відхилення (помилки) відносно цієї прямої: , (4)

де – і-та точка на прямій, яка відповідає значенню .

Реальні спостереження (Хі,Yі) зобразимо в системі (ХОY).

Приклад 3.

Візьмемо дані прикладу 2 і проведемо обчислення параметрів k та b:

Отже, .

Коефіцієнт регресії k показує, на скільки зміниться детермінована складова y, якщо фактор х зміниться на одиницю.

Приклад 4.

Зв’язок ознак Х та Y подається кореляційною таблицею:

Записати рівняння прямої регресії.

Рішення. Переходимо до умовних варіант , тобто С1=45, С2=38, h1=5, h2=10 (С1, С2 – варіанти, що мають найбільшу частоту 35).

Послідовно знаходимо:

;

; ; ;

Рівняння прямої регресії Y та Х має вигляд:

або .