Home » 10.Аналiз розподiлу ознаки за вибiркою

10.Аналiз розподiлу ознаки за вибiркою

11 Червня, 2024

Аналіз розподілу ознаки за вибіркою. Оцінювання параметрів розподілу досліджуваної ознаки.

1. Генеральна та вибіркова сукупності.

Основним змістом математичної статистики є систематизація, обробка і використання статистичної інформації для виявлення статистичних закономірностей ознаки або ознак певної сукупності елементів.

Оскільки суцільна обробка всіх елементів сукупності практично неможлива, то, як правило, застосовується вибірковий метод. Отже, розрізняють генеральну і вибіркову сукупності.

Множина W однотипних елементів, яким притаманні певні кількісні ознаки (розміри, вага, маса тощо), утворює генеральну сукупність. Кількість усіх елементів генеральної сукупності називають її обсягом і позначають символом N, значення якого здебільшого невідоме.

Кожна непорожня підмножина А множини W (А Ì W) випадково вибраних елементів із генеральної сукупності називається вибіркою. Кількість усіх елементів вибірки називають її обсягом і позначають символом n. Його значення відоме, причому воно набагато менше за обсяг генеральної сукупності (n << N).

Математична статистика розв’язує дві категорії
задач:

1) статистичне оцінювання (точкове, інтервальне) параметрів генеральної сукупності;

2) перевірка правдивості статистичних гіпотез про значення параметрів генеральної сукупності або про закон розподілу ознаки генеральної сукупності на підставі обробки результатів вибірки.

Кількісні ознаки елементів генеральної сукупності можуть бути одновимірними і багатовимірними, дискретними і неперервними.

Коли реалізується вибірка, кількісна ознака, наприклад Х, набуває конкретних числових значень (Х = хі), які називають варіантою.

Зростаючий числовий ряд варіант називають варіаційним.

Кожна варіанта вибірки може бути спостереженою ni раз (ni ³ 1 ), число ni називають частотою варіанти xi.

При цьому

де k — кількість варіант, що різняться числовим значенням;

n — обсяг вибірки.

Відношення частоти ni варіанти xi до обсягу вибірки називають її відносною частотою і позначають через Wi , тобто

Для кожної вибірки виконується рівність

Якщо досліджується ознака генеральної сукупності Х, яка є неперервною, то варіант буде багато. У цьому разі варіаційний ряд — це певна кількість рівних або нерівних частинних інтервалів чи груп варіант зі своїми частотами.

Такі частинні інтервали варіант, які розміщені у зростаючій послідовності, утворюють інтервальний варіаційний ряд.

На практиці для зручності, як правило, розглядають інтервальні варіаційні ряди, у котрих інтервали є рівними між собою.

3. Дискретний статистичний розподіл вибірки та її числові характеристики

Перелік варіант варіаційного ряду і відповідних їм частот, або відносних частот, називають дискретним статистичним розподілом вибірки.

У табличній формі він має такий вигляд:

X = x_i	x₁	x₂	x₃	…	x_k
n_i	n₁	n₂	n₃	…	n_k
W_i	W₁	W₂	W₃	…	W_k

Дискретний статистичний розподіл вибірки можна подати емпіричною функцією F ^*(x).

Емпірична функція F ^*(x) та її властивості.

Функція аргументу х, що визначає відносну частоту події X < x, тобто

називається емпіричною, або комулятою.

Тут n — обсяг вибірки;

n_x — кількість варіант статистичного розподілу вибірки, значення яких менше за фіксовану варіанту х;

F *(x) — називають ще функцією нагромадження відносних частот.

Властивості F *(x):

1) 0 £ F *(x) £ 1;

2) F(xmin) = 0, де xmin є найменшою варіантою варіаційного ряду;

3) , де xmax є найбільшою варіантою варіаційного ряду;

4) F(x) є неспадною функцією аргументу х, а саме: F(x2) ³ F(x1) при x2 ³ x1.

Полігон частот і відносних частот. Дискретний статистичний розподіл вибірки можна зобразити графічно у вигляді ламаної лінії, відрізки якої сполучають координати точок (x_i; n_i), або (x_i; W_i).

У першому випадку ламану лінію називають полігоном частот, у другому — полігоном відносних частот.

Приклад. За заданим дискретним статистичним розподілом вибірки

X = x_i	–6	–4	–2	2	4	6
n_i	5	10	15	20	40	10
W_i	0,05	0,1	0,15	0,2	0,4	0,1

потрібно:

1. Побудувати F ^*(x) і зобразити її графічно;

2. Накреслити полігони частот і відносних частот.

Розв’язання. Згідно з означенням та властивостями F ^*(x) має такий вигляд:

Графічне зображення F ^*(x) подано на рис. 1

Рис. 1

Полігони частот та відносних частот зображено на рис.2, 3.

Рис. 2

Рис. 3

3. Числові характеристики:

1) вибіркова середня величина . Величину, яка визначається формулою

називають вибірковою середньою величиною дискретного статистичного розподілу вибірки.

Тут x_i — варіанта варіаційного ряду вибірки;

n_i — частота цієї варіанти;

n — обсяг вибірки ().

Якщо всі варіанти з’являються у вибірці лише по одному разу, тобто n_i = 1, то

;

2) відхилення варіант. Різницю ()n_i називають відхиленням варіант.

При цьому

Отже, сума відхилень усіх варіант варіаційного ряду вибірки завжди дорівнює нулеві;

3) мода (Mo*). Модою дискретного статистичного розподілу вибірки називають варіанту, що має найбільшу частоту появи.

Мод може бути кілька. Коли дискретний статистичний розподіл має одну моду, то він називається одномодальним, коли має дві моди — двомодальним і т. д.;

4) медіана (Me*). Медіаною дискретного статистичного розподілу вибірки називають варіанту, яка поділяє варіаційний ряд на дві частини, рівні за кількістю варіант;

5) дисперсія. Для вимірювання розсіювання варіант вибірки відносно вибирається дисперсія.

Дисперсія вибірки — це середнє арифметичне квадратів відхилень варіант відносно , яке обчислюється за формулою

або

;

6) середнє квадратичне відхилення вибірки sB. При обчисленні DB відхилення підноситься до квадрата, а отже, змінюється одиниця виміру ознаки Х, тому на основі дисперсії вводиться середнє квадратичне відхилення

яке вимірює розсіювання варіант вибірки відносно , але в тих самих одиницях, в яких вимірюється ознака Х;

7) розмах (R). Для грубого оцінювання розсіювання варіант відносно застосовується величина, яка дорівнює різниці між найбільшою xmax і найменшою xmin варіантами варіаційного ряду. Ця величина називається розмахом

;

8) коефіцієнт варіації V. Для порівняння оцінок варіацій статистичних рядів із різними значеннями , які не дорівнюють нулеві, вводиться коефіцієнт варіації, який обчислюється за формулою

Приклад. За заданим статистичним розподілом вибірки

X = x_i	2,5	4,5	6,5	8,5	10,5
n_i	10	20	30	30	10

потрібно:

1) обчислити , , ;

2) знайти Mo^*, Me^*;

3) обчислити R, V.

Розв’язання. Оскільки , то згідно з формулами (354), (357), (358) дістанемо:

Для обчислення визначається

Тоді

= 5,16.

= 2,27.

Mo^* = 6,5; 8,5.

Отже, наведений статистичний розподіл вибірки буде двомодaльним. Me^* = 6,5, оскільки варіанта х = 6,5 поділяє варіаційний ряд
2,5; 4,5; 6,5; 8,5; 10,5 на дві частини: 2,5; 4,5 і 8,5; 10,5, які мають однакову кількість варіант.

Інформація, яку дістали на основі обробки вибірки про ознаку генеральної сукупності, завжди міститиме певні похибки, оскільки вибірка становить лише незначну частину від неї (n < N), тобто обсяг вибірки значно менший від обсягу генеральної сукупності.

Тому слід організувати вибірку так, щоб ця інформація була найбільш повною (вибірка має бути репрезентативною) і забезпечувала з найбільшим ступенем довіри про параметри генеральної сукупності або закон розподілу її ознаки.

Параметри генеральної сукупності Ме, є величинами сталими, але їх числове значення невідоме. Ці параметри оцінюються параметрами вибірки: які дістають при обробці вибірки. Вони є величинами непередбачуваними, тобто випадковими. Схематично це можна показати так (рис. 6).

Рис. 6

Тут через θ позначено оцінювальний параметр генеральної сукупності, а через — його статистичну оцінку, яку називають ще статистикою. При цьому θ = const, а — випадкова величина, що має певний закон розподілу ймовірностей. Зауважимо, що до реалізації вибірки кожну її варіанту розглядають як випадкову величину, що має закон розподілу ймовірностей ознаки генеральної сукупності з відповідними числовими характеристиками:

Точкові статистичні оцінки параметрів
генеральної сукупності

Статистична оцінка яка визначається одним числом, точкою, називається точковою. Беручи до уваги, що є випадковою величиною, точкова статистична оцінка може бути зміщеною і незміщеною: коли математичне сподівання цієї оцінки точно дорівнює оцінювальному параметру θ, а саме:

то називається незміщеною; в противному разі, тобто коли

точкова статистична оцінка називається зміщеною відносно параметра генеральної сукупності θ.

Різниця

називається зміщенням статистичної оцінки

Оцінювальний параметр може мати кілька точкових незміщених статистичних оцінок, що можна зобразити так (рис. 7):

Точкова статистична оцінка називається ефективною, коли при заданому обсязі вибірки вона має мінімальну дисперсію.

Точкова статистична оцінка називається ґрунтовною, якщо у разі необмеженого збільшення обсягу вибірки наближається до оцінювального параметра θ, а саме:

3. Методи визначення точкових
статистичних оцінок

Існують три методи визначення точкових статистичних оцінок для параметрів генеральної сукупності.

Метод аналогій. Цей метод базується на тому, що для параметрів генеральної сукупності вибирають такі самі параметри вибірки, тобто для оцінки вибирають аналогічні статистики —

Метод найменших квадратів. Згідно з цим методом статистичні оцінки визначаються з умови мінімізації суми квадратів відхилень варіант вибірки від статистичної оцінки

Отож, використовуючи метод найменших квадратів, можна, наприклад, визначити статистичну оцінку для . Для цього скористаємося функцією Використовуючи умову екстремуму, дістанемо:

Звідси для точковою статистичною оцінкою буде — вибіркова середня.

Метод максимальної правдоподібності. Цей метод посідає центральне місце в теорії статистичного оцінювання параметрів q. На нього свого часу звертав увагу К. Гаусс, а розробив його Р. Фішер. Цей метод розглянемо докладніше.

Нехай ознака генеральної сукупності Х визначається лише одним параметром θ і має щільність імовірностей f(x; θ). У разі реалізації вибірки з варіантами щільність імовірностей вибірки буде такою:

( 1)

При цьому варіанти розглядаються як незалежні випадкові величини, котрі мають один і той самий закон розподілу, що й ознака генеральної сукупності Х.

Суть цього методу полягає в тому, що, фіксуючи значення варіант , визначають таке значення параметра при якому функція (1) максимізується. Вона називається функцією максимальної правдоподібності і позначається так: .

Наприклад, коли ознака генеральної сукупності Х має нормальний закон розподілу, то функція максимальної правдоподібності набере такого вигляду:

. (2)

При цьому за статистичні оцінки вибирають ті їх значення, за яких задана вибірка буде найімовірнішою.

На практиці зручно від функції (2) перейти до її логарифма, а саме:

Згідно з необхідною умовою екстремуму для цієї функції дістанемо:

З першого рівняння системи дістанемо:

з другого рівняння системи (407) маємо:

Отже, для точковою статистичною оцінкою є для .

4. Виправлена дисперсія, виправлене середнє квадратичне відхилення.

Точковою незміщеною статистичною оцінкою для є

буде точковою незміщеною статистичною оцінкою для . Її назвали виправленою дисперсією і позначили через

Звідси точковою незміщеною статистичною оцінкою для є виправлена дисперсія або

Величину

називають виправленим середнім квадратичним відхиленням.

Приклад. 200 однотипних деталей були піддані шліфуванню. Результати вимірювання наведені як дискретний статистичний розподіл, поданий у табличній формі:

, мм	3,7	3,8	3,9	4,0	4,1	4,2	4,3	4,4
	1	22	40	79	27	26	4	1

Знайти точкові незміщені статистичні оцінки для .

Розв’язання. Оскільки точковою незміщеною оцінкою для є то обчислимо

Для визначення точкової незміщеної статистичної оцінки для обчислимо :

Тоді точкова незміщена статистична оцінка для дорівнюватиме:

Приклад. Граничне навантаження на сталевий болт х_і, що вимірювалось в лабораторних умовах, задано як інтервальний статистичний розподіл:

х_і, км/мм²	4,5—5,5	5,5—6,5	6,5—7,5	7,5—8,5	8,5—9,5	9,5—10,5	10,5—11,5	11,5—12,5	12,5—13,5	13,5—14,5
n_i	40	32	28	24	20	18	16	12	8	4

Визначити точкові незміщені статистичні оцінки для .

Розв’язання. Для визначення точкових незміщених статистичних оцінок перейдемо від інтервального статистичного розподілу до дискретного, який набирає такого вигляду:

	5	6	7	8	9	10	11	12	13	14
n_i	40	32	28	24	20	18	16	12	8	4

Обчислимо

Отже, точкова незміщена статистична оцінка для

Для визначення S² обчислимо D_B:

Звідси точкова незміщена статистична оцінка для є

5. Інтервальні статистичні оцінки
для параметрів генеральної сукупності

Точкові статистичні оцінки є випадковими величинами, а тому наближена заміна θ на часто призводить до істотних похибок, особливо коли обсяг вибірки малий. У цьому разі застосовують інтервальні статистичні оцінки.

Статистична оцінка, що визначається двома числами, кінцями інтервалів, називається інтервальною.

Різниця між статистичною оцінкою та її оцінювальним параметром θ, взята за абсолютним значенням, називається точністю оцінки, а саме:

де δ є точністю оцінки.

Оскільки є випадковою величиною, то і δ буде випадковою, тому нерівність (414) справджуватиметься з певною ймовірністю.

Імовірність, з якою береться нерівність (414), тобто

називають надійністю.

Рівність (415) можна записати так:

Інтервал , що покриває оцінюваний параметр θ генеральної сукупності з заданою надійністю g, називають довірчим.

6. Побудова довірчого інтервалу
для при відомому значенні
із заданою надійністю g

Нехай ознака Х генеральної сукупності має нормальний закон розподілу. Побудуємо довірчий інтервал для , знаючи числове значення середнього квадратичного відхилення генеральної сукупності із заданою надійністю γ. Оскільки як точкова незміщена статистична оцінка для має нормальний закон розподілу з числовими характеристиками , то, скориставшись (416), дістанемо

Випадкова величина має нормальний закон розподілу з числовими характеристиками

Згідно з формулою нормованого нормального закону

Вона набирає такого вигляду:

З рівності (419) знаходимо аргументи х, а саме:

Аргумент х знаходимо за значенням функції Лапласа, яка дорівнює 0,5 γ за таблицею .

Отже, довірчий інтервал дорівнюватиме:

Величина називається точністю оцінки, або похибкою вибірки.

Приклад. Вимірявши 40 випадково відібраних після виготовлення деталей, знайшли вибіркову середню, що дорівнює 15 см. Із надійністю побудувати довірчий інтервал для середньої величини всієї партії деталей, якщо генеральна дисперсія дорівнює .

Розв’язання. Для побудови довірчого інтервалу необхідно знати: , n, x.

З умови задачі маємо: Величина х обчислюється з рівняння

Знайдемо числові значення кінців довірчого інтервалу:

Таким чином, маємо:

Отже, з надійністю 0,99 (99% гарантії) оцінюваний параметр перебуває усередині інтервалу [14,87; 15,13].

Приклад. Маємо такі дані про розміри основних фондів
(у млн грн.) на 30-ти випадково вибраних підприємствах:

4,2; 2,4; 4,9; 6,7; 4,5; 2,7; 3,9; 2,1; 5,8; 4,0;

2,8; 7,8; 4,4; 6,6; 2,0; 6,2; 7,0; 8,1; 0,7,; 6,8;

9,4; 7,6; 6,3; 8,8; 6,5; 1,4; 4,6; 2,0; 7,2; 9,1.

Побудувати інтервальний статистичний розподіл із довжиною кроку h = 2 млн грн.

З надійністю знайти довірчий інтервал для , якщо = 5 млн грн.

Розв’язання. Інтервальний статистичний розподіл буде таким:

h = 2 млн грн.	2—4	4—6	6—8	8—10
n_i	9	7	10	4

Для визначення необхідно побудувати дискретний статистичний розподіл, що має такий вигляд:

	3	5	7	9
n_i	9	7	10	4

Тоді

Для побудови довірчого інтервалу із заданою надійністю необхідно знайти х:

Обчислюємо кінці інтервалу:

Отже, довірчий інтервал для буде .

Приклад. Якого значення має набувати надійність оцінки γ, щоб за обсягу вибірки n = 100 похибка її не перевищувала 0,01 при .

Розв’язання. Позначимо похибку вибірки

Далі маємо:

Як бачимо, надійність мала.

Приклад. Визначити обсяг вибірки n, за якого похибка гарантується з імовірністю 0,999, якщо .

Розв’язання. За умовою задачі Оскільки то дістанемо: Величину х знаходимо з рівності Тоді

7. Побудова довірчого інтервалу для при невідомому значенні із заданою надійністю g

Для малих вибірок, з якими стикаємося, досліджуючи різні ознаки в техніці чи сільському господарстві, для оцінювання при невідомому значенні неможливо скористатися нормальним законом розподілу. Тому для побудови довірчого інтервалу застосовується випадкова величина

що має розподіл Стьюдента з ступенями свободи.

Тоді набирає такого вигляду:

оскільки для розподілу Стьюдента є функцією парною.

Обчисливши за даним статистичним розподілом , S і визначивши за таблицею розподілу Стьюдента значення , будуємо довірчий інтервал

Тут обчислюємо за заданою надійністю γ і числом ступенів свободи за таблицею .

Інформація, яку дістають на підставі вибірки, реалізованої із генеральної сукупності, може бути використана для формулювання певних суджень про всю генеральну сукупність.

Наприклад, розпочавши виготовляти покришки нового типу для автомобілів, відбирають певну кількість цих покришок і піддають їх певним тестам.

За результатами тестів можна зробити висновок про те, чи кращі нові покришки від покришок старого типу, чи ні. А це, у свою чергу, дає підставу для прийняття рішення: виготовляти їх чи ні.

Такі рішення називають статистичними.

Статистичні рішення мають імовірнісний характер, тобто завжди існує ймовірність того, що прийняті рішення будуть помилковими.

Головна цінність прийняття статистичних рішень полягає в тому, що в межах імовірнісних категорій можна об’єктивно виміряти ступінь ризику, що відповідає тому чи іншому рішенню.

Будь-які статистичні висновки, здобуті на підставі обробки вибірки, називають статистичними гіпотезами.

Параметричні і непараметричні статистичні гіпотези

Статистичні гіпотези про значення параметрів ознак генеральної сукупності називають параметричними.

Наприклад, висувається статистична гіпотеза про числові значення генеральної середньої , генеральної дисперсії D_Г, генерального середнього квадратичного відхилення s_Г та ін.

Статистичні гіпотези, що висуваються на підставі обробки вибірки про закон розподілу ознаки генеральної сукупності, називаються непараметричними.

Наприклад, на підставі обробки вибірки може бути висунута гіпотеза, що ознака генеральної сукупності має нормальний закон розподілу, експоненціальний закон та ін.

Нульова й альтернативна гіпотези

Гіпотезу, що підлягає перевірці, називають основною. Оскільки ця гіпотеза припускає відсутність систематичних розбіжностей (нульові розбіжності) між невідомим параметром генеральної сукупності і величиною, що одержана внаслідок обробки вибірки, то її називають нульовою гіпотезою і позначають Н₀.

Зміст нульової гіпотези записується так:

;

Кожній нульовій гіпотезі можна протиставити кілька альтернативних (конкуруючих) гіпотез, які позначають символом Н_a, що заперечують твердження нульової.

Наприклад, нульова гіпотеза стверджує: , а альтернативна гіпотеза — , тобто заперечує твердження нульової.

Прості і складні статистичні гіпотези

Проста гіпотеза, як правило, належить до параметра ознак генеральної сукупності і є однозначною.

Наприклад, згідно з простою гіпотезою параметр генеральної сукупності дорівнює конкретному числу, а саме:

;

Складна статистична гіпотеза є неоднозначною. Вона може стверджувати, що значення параметра генеральної сукупності належить певній області ймовірних значень, яка може бути дискретною і неперервною.

Наприклад:

або .

Нульова гіпотеза може стверджувати як про значення одного параметра генеральної сукупності, так і про значення кількох параметрів, а також про закон розподілу ознаки генеральної сукупності.

Статистичний критерій.
Емпіричне значення критерію

Для перевірки правильності висунутої статистичної гіпотези вибирають так званий статистичний критерій, керуючись яким відхиляють або не відхиляють нульову гіпотезу. Статистичний критерій, котрий умовно позначають через K, є випадковою величиною, закон розподілу ймовірностей якої нам заздалегідь відомий.

Наприклад, для перевірки правильності як статистичний критерій K можна взяти випадкову величину, яку позначають через K = Z, що дорівнює

і яка має нормований нормальний закон розподілу ймовірностей. При великих обсягах вибірки (n > 30) закони розподілу статистичних критеріїв наближатимуться до нормального.

Спостережуване значення критерію, який позначають через K*, обчислюють за результатом вибірки.

Область прийняття гіпотези.
Критична область. Критична точка

Множину W всіх можливих значень статистичного критерію K можна поділити на дві підмножини А і , які не перетинаються.

Сукупність значень статистичного критерію K Î А, за яких нульова гіпотеза не відхиляється, називають областю прийняття нульової гіпотези.

Сукупність значень статистичного критерію K Î , за яких нульова гіпотеза не приймається, називають критичною областю.

Отже, А — область прийняття Н₀,

— критична область, де Н₀ відхиляється.

Точку або кілька точок, що поділяють множину W на підмножини А і , називають критичними і позначають через K_кр.

Існують три види критичних областей:

Якщо при K < K_крнульова гіпотеза відхиляється, то в цьому разі ми маємо лівобічну критичну область, яку умовно можна зобразити .

Якщо при нульова гіпотеза відхиляється, то в цьому разі маємо правобічну критичну область (рис. 2).

Якщо ж при і при нульова гіпотеза відхиляється, то маємо двобічну критичну область

Рис. 3

Лівобічна і правобічна області визначаються однією критичною точкою, двобічна критична область — двома критичними точками, симетричними відносно нуля.

Загальний алгоритм перевірки
правильності нульової гіпотези

Для перевірки правильності Н0 задається так званий рівень значущості a.

a — це мала ймовірність, якою наперед задаються. Вона може набувати значення a = 0,005; 0,01; 0,001.

В основу перевірки Н0 покладено принцип , тобто ймовірність того, що статистичний критерій потрапляє в критичну область , дорівнює малій імовірності a. Якщо ж виявиться, що а ця подія малоймовірна і все ж відбулася, то немає підстав приймати нульову гіпотезу.

Пропонується такий алгоритм перевірки правильності Н0:

1. Сформулювати Н0 й одночасно альтернативну гіпотезу Нa.

2. Вибрати статистичний критерій, який відповідав би сформульованій нульовій гіпотезі.

3. Залежно від змісту нульової та альтернативної гіпотез будується правобічна, лівобічна або двобічна критична область, а саме:

нехай , тоді, якщо

, то вибирається правобічна критична область, якщо

, то вибирається лівобічна критична область і коли

, то вибирається двобічна критична область.

4. Для побудови критичної області (лівобічної, правобічної чи двобічної) необхідно знайти критичні точки. За вибраним статистичним критерієм та рівнем значущості a знаходяться критичні точки.

5. За результатами вибірки обчислюється спостережуване значення критерію .

6. Відхиляють чи приймають нульову гіпотезу на підставі таких міркувань:

у разі, коли , а це є малоймовірною випадковою по-
дією, і, незважаючи на це, вона відбулася, то в цьому разі Н0 відхиляється:

для лівобічної критичної області

;

для правобічної критичної області

;

для двобічної критичної області

або

ураховуючи ту обставину, що критичні точки і симетрично розташовані відносно нуля.

Помилки першого та другого роду.
Потужність критерію

Якою б не була малою величина a, потрапляння спостережуваного значення у критичну область ніколи не буде подією абсолютно неможливою. Тому не виключається той випадок, коли Н₀ буде правильною, а , а тому нульову гіпотезу буде відхилено.

Отже, при перевірці правильності Н₀ можуть бути допущені помилки. Розрізняють при цьому помилки першого і другого роду.

Якщо Н₀ є правильною, але її відхиляють на основі її перевірки, то буде допущена помилка першого роду.

Якщо Н₀ є неправильною, але її приймають, то в цьому разі буде допущена помилка другого роду.

Між помилками першого і другого роду існує тісний зв’язок.

Нехай, для прикладу, перевіряється . При великих обсягах вибірки n , як випадкова величина, закон розподілу ймовірностей якої асимптотично наближатиметься до нормального з числовими характеристиками:

, .

Тому, коли гіпотеза Н₀є правдивою, . Цей розподіл має такий вигляд (рис. 4, крива f(x; a)).

Рис. 4

Коли альтернативна гіпотеза заперечує Н₀ і стверджує , то в цьому разі нормальна крива буде зміщена праворуч (на рис. 4 крива f(x; b)).

За вибраним рівнем значущості a визначається критична область (рис. 4).

Коли , то Н0 відхиляється з імовірністю помилки першого роду:

Коли , то Н0 не відхиляється, хоча може бути правильною альтернативна гіпотеза Нa.

Отже, в цьому разі припускаються помилки другого роду.

Імовірність цієї помилки, яку позначають символом b, може бути визначена на кривій f (x; b), а саме:

Ця ймовірність на рис. 4 показана штрихуванням площі під кривою f(x; b), що міститься ліворуч K_кр.

Якщо з метою зменшення ризику відхилити правильну гіпотезу Н₀ зменшуватимемо значення a, то в цьому разі критична точка K_кр зміщуватиметься праворуч, що, у свою чергу, спричинює збільшення ймовірності помилки другого роду, тобто величини b.

Різницю називають імовірністю обґрунтованого відхилення Н₀, або потужністю критерію.

Під час розв’язування практичних завдань може виникнути потреба вибору статистичного критерію з їх певної множини. У цьому разі вибирають той критерій, якому притаманна найбільша потужність.

Параметричні статистичні гіпотези

Перевірка правильності нульової гіпотези про значення генеральної середньої

Для перевірки правильності , де «а» є певним числом, при заданому рівні значущості a насамперед необхідно вибрати статистичний критерій K.

Найзручнішим критерієм для цього типу задач є випадкова величина K = Z, що має нормований нормальний закон розподілу ймовірностей N(0; 1), а саме:

При розв’язуванні такого класу задач можливий один із трьох випадків:

1) при — будується правобічна критична область;

2) при — будується лівобічна критична область;

3) при (тобто може бути , або ) — будується двобічна критична область.

Лівобічна і правобічна критичні області визначаються однією критичною точкою, двобічна — двома критичними точками, розташованими симетрично щодо нуля (у цьому разі потужність критерію буде максимальною), будуть рівними між собою за модулем і матимуть протилежні знаки.

Для побудови правобічної критичної області необхідно знайти критичну точку за умови . Значення обчислюємо з рівняння

, оскільки .

За таблицею значень функції Лапласа, скориставшись значенням , знаходимо аргумент .

Правобічна критична область зображена на рис. 5.

Рис. 5

Для побудови лівобічної критичної області необхідно знайти критичну точку , дотримуючись умови .

у цьому випадку обчислюється з допомогою рівняння

Враховуючи ту обставину, що функція Лапласа є непарною, за таблицею значень знаходимо аргумент і беремо його із знаком «мінус» . Лівобічна критична область зображена на рис. 6

Рис. 6

Для двобічної критичної області необхідно знайти дві критичні точки , за умови

, ,

де .

Отож, нам необхідно обчислити лише , скориставшись рівнянням

де знаходимо за таблицею значень функції Лапласа.

Двобічна критична область зображена на рис. 7.

Рис. 7

Розглянутий метод побудови критичних областей придатний лише за умови, коли відоме значення середнього квадратичного відхилення ознаки генеральної сукупності. При цьому спостережуване значення критерію обчислюється так:

У випадку, коли значення є невідомим, його замінюють статистичною оцінкою

Тоді за статистичний критерій вибирається випадкова величина K = t, що має розподіл Стьюдента з k = n – 1 ступенями свободи, а саме:

Критичні точки у цьому разі визначаються за таблицею (додаток 6) заданим рівнем значущості a та числом ступенів свободи k = n – 1. Спостережуване значення критерію обчислюється за формулою

Визначення мультиколінеарності та її природа

Ми вже стикалися з проблемою мультиколінеарності. Тепер розглянемо її детальніше. Перш за все потрібно зрозуміти природу мультиколінеарності та з’ясувати, чи справді наявність мультиколінеарності є проблемою при розробці моделей. І якщо це так, то в чому саме вона полягає і як її подолати? Насамперед згадаємо, що таке мультиколінеарність.

Терміни “мультиколінеарність” означає, що в багатофакторній регресійній моделі дві або більше незалежних змінних (факторів) пов’язані між собою лінійною залежністю або, іншими словами, мають високий ступінь кореляції

Наприклад, мультиколінеарність може бути проблемою, коли ми вивчаємо залежність між ціною акції, дивідентами на акцію та заробленим прибутком на акцію, оскільки дивіденди та зароблений прибуток на одну акцію мають високий ступінь кореляції.

Крім того, у розділі 4 ми вже показували, що якщо два колінеарні фактори змінюються в одному напрямі, то майже неможливо оцінити окремий вплив з них на досліджуваний показник у.

Мультиколінеарність може виникати за різних умов.

По-перше , є глобальна тенденція одночасної зміни економічних показників. На макроекономічні показники впливають однакові фактори. Це приводить до того, що вони відображають широкий спектр моделей однакової економічної ситуації. Наприклад, у період бумів або швидкого економічного зростання базові економічні показники також зростають, звичайно, з деяким лагом. Тоді показники, як доход, споживання, накопичення, інвестиції, ціни, зайнятість мають тенденцію до зростання в період економічної експансії і до спаду в період рецесії. Сама наявність трендів у динамічних рядах є причиною мультиколінеарності.

По-друге, широке використання в економетричних моделях лагових значень однієї змінної також призводить до виникнення мультиколінеарності. Наприклад, добре відомі інвестиційні функції, в яких лагові значення минулого рівня економічної активності вводяться як окремі змінні. Уфункціях споживання на споживання у попередньому періоді вводяться в модель поряд з величиною поточного рівня доходу.

Таким чином, зрозуміло, що в економіці взагалі важко уникнути певного рівня залежності між показниками, тобто певного рівня колінеарності.

До яких же наслідків може привести мультиколінеарність? Це одне з найважливіших питань, яке потрібно зрозуміти при розробці економетричних моделей. Перш за все потрібно відрізняти досконалу кореляцію від недосконалої.

Спочатку мультиколінеарність розглядали як наявність досконалої кореляції . Сам термін “мультиколінеарність” вперше було впроваджено Р. Фрішем.

Якщо ми розглянемо багатофакторну модель з р факторами, то досконалий лінійний зв’язок між має місце, коли виконується така умова:

(1)

де не всі одночасно дорівнюють нулю.

Проте сьогодні “мультиколінеарність” має ширше значення і включає випадок не тільки досконалої кореляції, а й випадок, коли фактори корелюють між собою (проте недосконало). Тобто є залежність:

(2)

де e – випадкова величина (помилка).

Різницю між досконалою і недосконалою мультиколінеарністю розглянемо для випадку, коли, наприклад, .

Вираз (1) можна тоді переписати таким чином:

(3)

Фактор є лінійною комбінацією інших факторів.

Аналогічно, вираз (2) можна записати:

. (4)

Із (4) зрозуміло, що змінна не є точною лінійною комбінацією інших факторів, бо залежить також від випадкової величини .

Чому для класичної лінійної моделі вимогою одного з припущень є відсутність мультиколінеарності між її факторами? Тому, що у випадку досконалої мультиколінеарності параметри регресії стають невизначеними, а їхні середні квадратичні відхилення прямують до нескінченності.

Покажимо це для двофакторної регресійної моделі.

Властивість 1. Припустимо, що ми розглядаємо залежність національного доходу (у) від випуску промислових товарів і товарів тривалого користування за період часу t.

Нехай економетрична модель має такий вигляд:

(5)

де і пов’язані між собою залежністю .

Формули для оцінок параметрів мають такий вигляд (див. додаток 1):

(6)

(7)

Замінивши на , отримаємо:

(8)

(9)

Як бачимо з виразів (8) і (9), параметри і у разі мультиколінеарності стають невизначеними, тобто неможливо знайти окреме значення кожного з них.

Властивість 2. Якщо , то середні квадратичні відхилення параметрів прямують до нескінченності.

Розглянемо цю властивість на прикладі двофакторної регресійної моделі

де і .

Можна показати, що дисперсії оцінок параметрів дорівнюють (див. додаток 1):

; (10)

. (11)

Коли , тоді .

Відповідно дорівнюють нескінченності і середні квадратичні відхилення. Звичайно, досконала мультиколінеарність є дуже рідкісним явищем; частіше в економічних дослідженнях немає точної лінійної залежності між параметрами. Як же оцінювати параметри багатофакторної регресії за умови високої, але не досконалої мультиколінеарності? Розглянемо приклад. Нехай для двофакторної регресійної моделі маємо таку залежність між факторами.

, (12)

де ; – випадкова величина; .

У цьому випадку можна оцінити параметри і . Підставивши (12) у (6), отримаємо:

(14)

виходячи з того, що .

Аналогічно можна отримати вираз для параметра . Тепер немає підстави вважати, що параметри неможливо оцінити. Звичайно, якщо незначно відрізняється від нуля, тоді ми повертаємось до випадку “досконалої” колінеарності.

Теоретичні наслідки мультиколінеарності в загальному випадку

Згадаємо, що умови класичної моделі задовольняються, то МНК-оцінки (оцінки, обчислені за методом найменших квадратів) параметрів регресії є BLUE-оцінками. Навіть при дуже високій, але недосконалій мультиколінеарності MHK–оцінки все ще зберігають властивість BLUE-оцінок.

Тоді чому виникає питання про мультиколінеарність? Звичайно, при побудові моделі навіть в умовах мультиколінеарності можна отримати незміщені та стійкі оцінки. Ефект мультиколінеарності виявляється у тому, що складно отримати значення параметрів з малою стандартною помилкою. Такий самий ефект спостерігається при невеликій кількості спостережень або при невеликій зміні значень. З точки зору теорії, мультиколінеарність та невелика кількість змінних – це одна і та сама проблема. Тому теоретично питання “Що робити з мультиколінеарністю?” збігається з питанням “Що робити, якщо в мене мало спостережень?” Але фактично проблема мультиколінеарності так часто виникає в емпіричних дослідженнях та створює такі серйозні проблеми оцінювання, що розглядати її тільки як порушення моделі класичної лінійної регресії неможливо.

По-перше, справедливе твердження, що навіть у разі високої мультиколінеарності МНК – оцінки є незміщеними. Але незміщеність – це властивість часто повторюваної вибірки. Вона означає, що при постійних значеннях змінних величин х, якщо досліджувати повторювані вибірки та підрахувати МНК –оцінки для кожної з них, середнє значення змінних у цих вибірках прямує до правельних значень параметрів у будь-якій з наведених вибірок.

По-друге, справедливим є також те, що колінеарність не порущує властивостей мінімуму дисперсії: в класі лінійних незміщених оцінок МНК-оцінки мають мінімальну дисперсію, і тому вони ефективні. Однак це не значить, що дисперсія МНК-оцінки буде неминуче малою (відносно значення параметра) в будь-якій з наведених вибірок. Цю властивість ми проілюструємо дещо пізніше.

По-третє, мультиколінеарність – явище виключно регресійного аналізу вибірки в тому розумінні, що навіть якщо змінні х пов’язані в генеральні сукупності нелінійно, вони можуть мати лінійний зв’язок у кожному окремому випадку: коли ми постулюємо вибіркову або узагальнену функцію регресії, то впевнені, що всі змінні величини х, які утворюють модель, мають окремий або незалежний вплив на залежну змінну величину у. Однак може так трапитися, що в будь-якій з вибірок, яка використовується для перевірки узагальненої моделі, деякі або всі змінні величини х настільки висококолінеарні, що ми не можемо виявити їхнього індивідуального впливу на у. Наша вибірка, так би мовити, нас підводить, хоча за теорією всі х важливі. Іншими словами, вже неможливо застосувати всі змінні величини х в аналізі.

Проілюструємо це прикладом “споживання – прибуток.” Економісти вважають, що важливим фактором у споживанні, окрім прибутку, є також заможність споживача. Таким чином, ми можемо записати:

де – споживання, – доход, – багатство.

Може так трапитися, що коли ми отримуємо дані про прибуток та багатство, дві змінні величини та будуть високо або навіть повністю корельовані між собою. Більш заможні люди здебільшого прагнуть отримувати вищий прибуток. Таким чином, хоча теоретично прибуток і багатство є логічними кандидатами для з’ясування поведінки споживача, на практиці (тобто у вибірці) важко розібратися в окремих випадках впливу прибутку і багатства на споживання. В ідеальному випадку, щоб визначити індивідуальний вплив багатства і прибутку на споживання, нам потрібно достатня кількість вибірок зі спостереженнями щодо заможних індивідів з низьким прибутком та не дуже заможних людей з високим прибутком. Хоча це можливо теоретично, практично цього дуже важко добитися при проведенні загальних досліджень.

У зв’язку з цим той фактор, що МНК-оцінки є BLUE–оцінками, незважаючи на мультиколінеарність, є маловтішним. Ми повинні знати, що відбувається або що може відбуватися в кожній окремій вибірці.

Практичні наслідки мультиколінеарності

Першим практичним наслідком мультиколінеарності є велика дисперсія і коваріація оцінок параметрів, обчислених за методом найменших квадратів.

Знову для ілюстрації повернемося до двофакторної регресійної моделі

та її вибіркового аналога

Дисперсія оцінок парамерів і має вигляд (додаток 1.1):

; (12)

; (13)

. (14)

де r – коефіцієнт кореляції між і .

З (12) і (13) ми бачимо, що якщо коeфіцієнт між факторами і збільшується, то дисперсії оцінок параметрів теж збільшуються.

З (14) також зрозуміло, що при збільшенні коефіцієнта кореляції між факторами і коефіцієнт коваріації параметрів збільшується за абсолютною величиною. Причому при наближенні до граничного значення це збільшення зростає експоненційно. Проілюструємо це на прикладі параметра .

У формулі (12) позначимо:

;

у формулі (14):

Послідовно збільшуючи значення коефіцієнта кореляції, отримаємо дані, наведені в табл. 1.

Як бачимо з табл. 1, при наближенні коефіцієнта кореляції до свого граничного значення дисперсії параметрів і коефіцієнт коваріації параметрів зростають із значною швидкістю. Так, при у 50 разів перевищує своє значення за умови, що немає мультиколінеарності .

Вплив зростання на і

Таблиця 1

№

п/п

Значення

0.5

0.7

0.8

0.9

0.95

0.99

0.995

0.999

1.33^.р

1.96^.р

2.78^.р

26^.р

10.26_.р

50.2р

100^.р

500^.р

0.67^.D

1.37^.D

2.22^.D

4.73^.D

9.74^.D

49.7D

99.D

499.D

Другим практичним наслідком мультиколінеарності є збільшення інтервалу довіри. Оскільки збільшення коефіцієнта кореляції призводить до збільшення значень середньоквадратичних відхилень параметрів, то, звичайно, збільшується й інтервал довіри для них, що можна побачити з табл. 2.

Як бачимо, інтервал довіри за наявності високої мультиколінеарності в разів більший, ніж коли її немає .

Третім практичним наслідком мультиколінеарності є незначимість t-статистики.

Нагадаємо: для того, щоб оцінити, чи значимо параметри багатофакторної регресії відрізняються від нуля, ми використовуємо t-статистику Ст’юдента. Для цього, наприклад, для параметра розраховуємо відношення: і порівняємо його з табличним значенням t. У випадку мультиколінеарності нескінченно зростає, а t-значення прямує до нуля.

Таблиця 2

Ефект впливу збільшення коефіцієнта коре-

ляції на інтервал довіри для параметра

Значення

95% ітервал довіри для

0.5

0.95

0.99

0.999

Коли мультиколінеарність не є проблемою?

Якщо єдиною метою регресійного аналізу є прогноз, тоді мультиколінеарність не викликає проблем, оскільки чим вище значення , тим точніший прогноз. Це справедливо лише доти, “…доки значення залежних змінних, для яких і здійснюється прогноз, мають однакову майже лінійну залежність з початковою матрицею Х”. Таким чином, якщо упобудованій регресії встановлено, що приблизно , то в наступних прикладах прогнозування повинно приблизно дорівнювати . Ця умова майже нездійсненна на практиці. Більше того, якщо метою аналізу є не прогноз, а дійсні значення параметрів, мультиколінеарність перетворюється на проблему, оскільки вона призводить до великих стандартних помилок в оцінці параметрів.

Є випадок, коли мультиколінеарність не переростає в проблему: якщо велике і параметри регресії є значними, оскільки t-статистика висока. Коли може виникнути така ситуація? Джонстон зазначає: “Вона може виникнути, якщо оцінки параметрів мають такі числові значення, які “кращі” за правильні значення, так що ефект залишається, незважаючи на підвищення стандартної помилки, і / або тому що правильні значення самі по собі настільки великі, що навіть занижена оцінка залишається значимою”.

Тестування наявності мультиколінеарності та засоби її вилучення

На жаль, немає єдиного методу для визначення мультиколінеарності. Тому наведемо кілька тестування наявності мультиколінеарності.

1. Високе значення R² і незначимість t-статистики.

Одночасна наявність цих двох факторів є “класичною” ознакою мультиколінеарності.

Розглянемо р-факторну регресійну модель .

У випадку мультиколінеарності можна визначити за t-статистикою Ст’юдента, що один або більше оцінених параметрів статистично незначимо відрізняються від нуля. При високому значенні ми приймаємо з великим ступенем імовірності F-критерій Фішера, бо він відкидає нульову гіпотезу, коли .

Тому високе значення і статистична незначущість деяких параметрів може свідчити про наявність мультиколінеарності.

2. Високе значення парних коефіцієнтів кореляції

Другим поширеним тестом на наявність мультиколінеарності є перевірка значень парних коефіцієнтів кореляції. Якщо значення хоча б одного коефіцієнта кореляції більше 0.8, то мультиколінеарність є серйозною проблемою.

Однак проблемним у цьому тесті є те, що високе значення парних коефіцієнтів кореляції – достатня, але не необхідна умова наявності мультиколінеарності.

Мультиколінеарність може бути навіть при відносно невеликих значеннях парних коефіцієнтів кореляції у більше, ніж двофакторній регресійній моделі.

3. F-тест для визначення мультиколінеарності

Цей тест було запропоновано Глаубером і Фарром. Наявність мультиколінеарності свідчить про те, що один або більше факторів пов’язані між собою лінійною залежністю. Одним із способів визначення щільності регресійного зв’язку є побудова регресійної залежності кожного фактора з усіма іншими факторами і обчислення відповідного коефіцієнта детермінації для цього допоміжного регресійного рівняння. Тому F-тест має й іншу назву: побудова допоміжної регресії.

Коефіцієнт детермінації є коефіцієнтом детермінації в регресії, яка пов’язує фактор з іншими факторами. Наприклад, є коефіцієнтом детермінації такої регресії: .

Для кожного коефіцієнта детермінації розраховуємо F_і-відношення:

де n – кількість спостережень; р – кількість факторів.

F – тест перевіряє гіпотезу

проти гіпотези:

Розраховані значення F_i порівнюємо з критичними значеннями F_кр, знайденими за таблицями F-розподілу Фішера з і ступенями вільності і заданим рівнем значимості. Якщо , тоді ми відкидаємо нуль – гіпотезу і вважаємо, що фактор х_і є мультиколінеарним; якщо ж , то приймаємо -гіпотезу і впевнюємось, що фактор х_і не є мультиколінеарним.

Характеристичні значення та умовний індекс

У деяких сучасних статистичних пакетах для перевірки наявності мультиколінеарності використовують характеристичні значення та умовний індекс. Ми не будемо детально розглядати, як обчислювати характеристичні значення, бо це потребує використання апарату теорії матриць. Відмітимо лише, що за цим тестом ми розраховуємо умовне число k:

і умовний індекс (СІ):

Якщо , то це свідчить про помірну мультиколінеарність, при має високу мультиколінеарність. Аналогічно, якщо , це свідчить про помірну мультиколінеарність, а – про високу.

Звичайно, ми розглянули лише основні методи тестування мультиколінеарності. І, як бачимо, жоден з них не є універсальним. Кожен з розглянутих методів має свої переваги і наслідки, застосування того чи іншого методу залежить від вибору дослідника.

Визначення рівня мультиколінеарності

Визначення рівня мультиколінеарності за своїм змістом близьке до тестування її наявності. Ми вже знаємо, що коли йдеться про двофакторну модель, то для визначення мультиколінеарності можна обмежитись аналізом парних коефіцієнтів кореляції. Однак, якщо факторів більше, ніж два, то аналіз парних коефіцієнтів кореляції уже недостатньо.

Нехай ми маємо р-факторну регресійну модель

. (15)

Тепер ми зможемо побудувати р багатофакторних регресій відповідно для факторів .

;

… (16)

є коефіцієнтом детермінації для кожного і-го фактора. Він якраз і використовується для того, щоб визначити ступінь мультиколінеарності.

Для цього розраховуємо величину дисперсійно-інфляційного фактора VIF (varience inflationary factor) для кожної змінної:

. (17)

Дослідники використовують значення як критичне. Якщо , то можна стверджувати про недостатність зв’язку між і-м фактором і всіма іншими. Якщо , то свідчить про наявність мультиколінеарності.

Засоби вилучення мультиколінеарності

Що робити, коли мультиколінеарність виявлено? Безпомилкових і абсолютно правильних порад нема, оскільки мультиколінеарність є прикладною проблемою. Звичайно, все залежить від ступеня мультиколінеарності, але у будь-якому випадку можна запропонувати декілька простих методів вилучення мультиколінеарності.

1. Використання первинної інформації

Аналіз і використання первинної інформації інколи дозволяє зняти проблему мультиколінеарності. Пояснимо це на прикладі, розглянувши залежність між споживанням, доходом та багатством. Цю залежність можна описати такою моделлю:

(18)

де у – споживання, х₁ – доход, х₂ – багатство. Відомо, що доход та багатство є висококолінеарними факторами. Припустимо, попередньо визначено, що зв’язок між доходом та багатством є таким:

Тоді модель (18) можна переписати у вигляді:

, (19)

де . Звідси ми можемо знайти оцінку параметра , а потім і , виходячи із постульованої залежності між і .

Як ми отримуємо апріорну інформацію? Звичайно, багато в чому спираємося на економічну теорію. Наприклад, для виробничої функції Кобба – Дугласа при постійному масштабі виробництва маємо: . Якщо при цьому спостерігається колінеарність між факторами х₁ (праця) і х₂ (капітал), тоді заміна змінних може зменшити або й усунути колінеарність. Проте до методу використання первинної інформації слід підходити з великою обережністю.

2. Об’єднання міжгалузевої та динамічної інформації

Окремим випадком методу використання первинної інформації, який ми розглядали вище, є об’єднання міжгалузевої інформації та інформації за часовими рядами. Цей метод відомий як метод зведення інформації. Припустимо, ми хочемо вивисти попит на автомобілі в Україні і маємо дані про продаж машин за певний час, середню ціну машини та доход споживача. Припустимо також, що

де у – кількість проданих машин, Р – середня ціна, І – доход, t – час. Нашою метою є визначення еластичності ціни і еластичність доходу .

У часово – кількісних даних цінова змінна та змінна доходу схильні до високої колінеарності. Тому, якщо застосовувати попередню регресію, то перед нами постане звичайна проблема мультиколінеарності. Метод її вирішення був запронований Тобіним. Якщо ми працюємо з міжгалузевою інформацією (такою як бюджетні дослідження , що приводяться багатьма приватними та урядовими агентами), то можемо отримати більш – менш надійні оцінки еластичності, наприклад, доходу , тому що в таких даних ціна змінюється неістотно. Використовуючи цю оцінку, попередню регресію можна записати у вигляді:

де і відповідає значенню у після усунення ефекту доходу. Тепер ми можемо отримати параметри еластичності ціни з попередньої регресії.

Незважаючи, на те, що цей метод привабливий , при його використанні можуть виникнути проблеми з аналізом отриманих результатів, бо ми припустили, що отримана еластичність доходу дорівнює тій, яку б ми отримали за чистого аналізу часових рядів. Все ж таки, цей метод може застосовуватися в багатьох ситуаціях за умови, що міжгалузеві оцінки відрізняються неістотно.

3. Вилучення змінної (змінних) та помилки специфікації

Якщо ми маємо високу мультиколінеарність, тоді найкраще та найлегше просто відкинути одну із залежних змінних. Таким чином, у прикладі із споживання, доходом та багатством, якщо опустити змінну, що відповідає багатству, ми отримаємо регресійну модель з однією незалежною змінною – доходом.

Але вилучення змінної з моделі може призвести до помилки специфікації. Помилка специфікації виникає через некоректне визначення моделі, що використовується в аналізі. Так, якщо за економічною теорією для пояснення розширення споживання модель повинна включати і доход, і багатство, тоді вилучення змінної багатства створюватиме помилку специфікації.

Детально проблеми специфікації ми розглядати не будемо, відмітимо, що, якщо правельною моделлю є

але ми помилково звели її до вигляду

, (20)

тоді

, (21)

де – нахил у регресії відносно . Як зрозуміло з (21), є зміщеною оцінкою , коли відмінне від нуля (тоді існує залежність між та ). Звичайно, якщо дорівнює нулю, то з самого початку проблеми мультиколінеарності немає.

Отже, вилучення змінної з моделі з метою зниження мультиколінеарності, може призвести до зміщених оцінок. Наслідки від цього можуть бути гіршими, ніж сама проблема колінеарності. Адже при мультиколінеарності оцінки параметрів залишаються BLUE-оцінками, тоді як вилучення змінної може привести до зміщених оцінок, які не є BLUE-оцінками.

4. Перетворення змінних

Припустимо, дані за певний період часу щодо споживання, доходу та багатства. Одна з причин мультиколінеарності цих даних є їхня схильність змінюватись в одному напрямку, а один із шляхів зменшення такої залежності – використання перших різниць у моделі.

Наприклад, якщо залежність

, (22)

дійсна в час t, вона дійсна і для часу . Тому отримаємо:

. (23)

Якщо підставимо (23) в (22), то матимемо:

, (24)

де . Різниця (24) відоме як рівняння перших різниць, бо ми отримали регресію не з початкових змінних, а з різниць послідовних значень змінних.

Цей прийом часто зменшує мультиколінеарність бо, хоча значення і можуть мати високу кореляцію, їхні різниці не завжди висококорельовані.

Такі перетворення породжують певні додаткові проблеми. Випадкова величина в (24) може не задовольняти припущення моделі класичної лінійної регресії про незалежність. Як ми побачимо в параграфі про автокореляцію, коли початкове значення є послідовно незалежним або некорельованим, тоді випадкова величина u_t буде в багатьох випадках послідовно корельованою. Знову ж таки намагання поліпшити ситуацію призводять до гіршого стану, ніж був спочатку. Більше того, використання перших різниць призводить до зменшення ступенів вільності на одиницю. У роботі з малими вибірками цей фактор також треба брати до уваги.

5. Збільшення спостережень.

Оскільки мультиколінеарність змінюється у кожній вибірці, то можливо, що в іншій моделі з такими ж змінними мультиколінеарність буде іншою. Іноді просте збільшення спостережень у моделі (якщо це можливо) пом’якшує проблему мультиколінеарності. Наприклад, у моделі з двома змінними ми бачимо, що

де .

Якщо збільшувати кількість спостережень, то завжди збільшуватиметься. Тому для кожного даного дисперсія буде зменшуватися, зменшуючи таким чином стандартну помилку, що допомагає оцінити точніше.

Отримати додаткові дані не завжди легко, оскільки на практиці це часто вимагає значних витрат. Крім того, потрібно впевнитись, що економічна структура, пов’язана з новими спостереженнями, буде подібна до початкової структури.

6. Інші методи виправлення мультиколінеарності.

Статистичні методи, такі як факторний аналіз, метод головних компонент, гребенева регресія, часто використовуються для виправлення мультиколінеарності. На жаль, ми їх не розглядаємо, бо вони потребують спеціальних математичних знань. Але всі ці методи є в сучасних комп’ютерних програмах і можуть застосовувати на практиці.

Основні висновки щодо наявності мультиколінеарності в регресійній моделі

Однією з умов класичної лінійної регресії є припущення про відсутність мультиколінеарності між факторами х. Іншими словами, мультиколінеарність наявна тоді, коли між факторами або майже лінійна залежність.

Наслідки мультиколінеарності: за досконалої колінеарності між факторами х параметри регресії та їхні середньоквадратичні відхилення неможливо визначити. Якщо мультиколінеарність велика, але не досконала, визначити параметри регресії можна, але їхні середньоквадратичні відхилення будуть дуже великими. Як наслідок, значення параметрів для сукупності не можна визначити точно.

Хоча надійних методів тестування колінеарності не існує, є декілька її індикаторів.

1. Найкращою ознакою мультиколінеарності є високе значення коефіцієнта детермінації при незначимості параметрів за t-тестом.

2. У моделі з двома змінними найкращою ознакою мультиколінеарності є значення коефіцієнта кореляції.

3. У моделі з більш як двома змінними, простий коефіцієнт кореляції може бути низький за наявності мультиколінеарності. За таких умов потрібно брати до уваги часткові коефіцієнти кореляції.

4. Якщо коефіцієнт детермінації великий, а часткові коефіцієнти кореляції низькі, то мультиколінеарність можлива. Також можливо, що у моделі є надлишкові змінні. Але якщо коефіцієнт детермінації високий і часткові коефіцієнти кореляції високі, то мультиколінеарність не завжди можна виявити.

Ще один спосіб виявлення мультиколінеарності – побудова регресії для кожної змінної від інших х та знаходження відповідного коефіцієнта детермінації . Більше значення відповідає вищій кореляції з іншими змінними х.

Виявлення мультиколінеарності є лише частиною справи. Інша частина – як її позбутися. Немає якихось певних методів, можна дати лише окремі поради: (1) використання додаткової або первинної інформації; (2) об’єднання інформації; (3) відкидання змінної з високою кореляцією; (4) перетворення даних (використання перших різниць); (5) збільшення спостережень. Які поради спрацюють на практиці, залежить від істотності проблеми та її характеру.

1. Двофакторна регресійна модель

Розглянемо двофакторну регресійну модель

Знайдемо оцінки невідомих параметрів методом найменших квадратів:

. (0)

Для цього розрахуємо часткові похідні і прирівняємо їх до нуля; отримаємо систему нормальних рівнянь:

;

; (1)

Якщо ввести заміну змінних:

; ; ,

то (1) можна переписати у вигляді:

;

(2)

З (2) отримаємо:

; (3)

; (4)

(5)

2. Розрахунок диперсії параметрів двофакторної моделі

Коефіцієнт кореляції між факторами :

, (6)

де ; (7)

. (8)

Виходячи (6) – (8) у рівняння (3), отримаємо:

. (9)

Проведемо заміну у (9):

;

Позначивши у (9) коефіцієнт при через , отримаємо:

. (10)

Аналогічно:

. (11)

Підставивши у (0) рівняння (10) і (11), отримаємо:

;

. (12)

Легко показати, що:

; ; ; ; ; .

Тоді (12) і (13) можна переписати у вигляді:

; (14)

. (14^‘)

Виходячи з (14), отримаємо:

(15)

Нагадаємо: і , коли .

За означенням маємо:

(16)

Виходячи з (16), (6), (7) і (8):

(16)

Підставимо (17) у (15):

(18)

Аналогічно, для параметра :

. (19)

3. Коефіцієнт коваріації для двофакторної регресії

Запишемо прогнозне значення для двофакторної регресійної моделі:

. (20)

Тоді дисперсія матиме вигляд:

(21)

З (14) і (14^‘) можемо показати, що

(22)

Оскільки , коли , то рівняння (22) можна скоротити:

(23)

Легко показати, що

. (24)

Якщо (24) підставити у (23), то

. (24)

Підставляючи (17), (24) у (25), отримаємо:

(26)

Скласти таблицю статистичного розподілу розміру Х чоловічого взуття, яке продане магазином протягом дня: 39, 40, 41,40, 43, 41, 44, 42,40,42, 41, 41, 43, 42, 39, 42, 43, 41, 42, 41, 38, 42, 42, 41, 40, 41, 43, 39, 40, та побудувати полігон та кумуляту.

Рішення. Таблиця розподілу дискретного ряду має вигляд:

Приклад 2.

Побудувати гістограму відносних частот розподілу в першому стовпці вказано частинні інтервали, в другому – сума частот варіант частинного інтервалу:

2 – 5 9

5 – 8 10

8 – 11 25

11 – 14 6

Рішення. Складемо таблицю, де n=9+10+25+6=50,.

Приклад 1.

З булочок, що їх випікає хлібозавод, зроблено вибірку. Зважування булочок, що попали у вибірку, дало такі результати (в грамах):

100,3 101,2 99,6 102,4 100,3 100,4

102,7 98,6 101,2 98,3 99,5 101,2

100,7 99,8 100,7 100,6 99,2 99,7

100,4 101,1 100,1 100,7 99,3 98,9

100,2 98,8 98,9 98,2 97,6

99,2 98,3 99,7 101,3 98,7

99,7 101,6 103,2 99,4 101,5

Знайти:

Рішення. Результати вибірки та їх обчислення зводимо в таблицю:

;

Для знаходження М_о будемо користуватись формулою:

, (6)

де x_r– ліва межа модального інтервалу, n_r –частота модального інтервалу; n_r-1, n_r+1 – частоти відповідного попереднього і наступного інтервалів; h– ширина модального інтервалу. В нашому прикладі: x_r=100,0, n_r=7, n_r-1=6, n_r+1=4, h=0,5. А тому

Для знаходження Ме припускаємо рівномірний розподіл ознаки в медіанному інтервалі, тому

. (7)

Маємо: x_r=99,5; n_r=6, n_r+1=14 , h=0,5;

Приклад 2.

Статистичні дослідження рівня доходу на працюючого в день дали такі результати:

З надійністю при значенні побудувати інтервал довір’я для математичного сподівання.

Рішення. Допустимо, що рівень доходу розподілений за нормальним законом. Тоді побудова інтервалу довір’я здійснюється за формулою

де

9,676<m<11,244

Приклад 3.

Вибіркове обслідування прибутків за місяць підприємців дало результати, дані яких записані у вигляді розподілу:

Побудувати інтервал довір’я для математичного сподівання m, допустивши, що генеральна сукупність Х розподілена нормально з надійністю .

Рішення. Обчислимо

За надійністю і числом ступенів вільності k=10-1=9 за таблицею 3 знаходимо . Тоді згідно формули (2):

Задача 1.

Кидають два гральні кубики. Знайти ймовірність того, що: а) сума очок не перевищує ; б) добуток очок не перевищує ;

в) добуток очок ділиться на .

Задача 2.

Є вироби чотирьох сортів, при цьому кількість виробів -го сорту дорівнює , . Для контролю навмання беруть виробів. Знайти ймовірність того, що серед них першого сорту, і другого, третього і четвертого відповідно .

Задача 3.

Серед лотерейних білетів виграшних. Навмання взяли білетів. Знайти ймовірність того, що серед них виграшних.

Побудова довірчого інтервалу
для при відомому значенні
із заданою надійністю g

Випадкова величина має нормальний закон розподілу з числовими характеристиками

Згідно з формулою нормованого нормального закону

Вона набирає такого вигляду:

З рівності (419) знаходимо аргументи х, а саме:

Аргумент х знаходимо за значенням функції Лапласа, яка дорівнює 0,5 γ за таблицею .

Отже, довірчий інтервал дорівнюватиме:

Величина називається точністю оцінки, або похибкою вибірки.

Розв’язання. Для побудови довірчого інтервалу необхідно знати: , n, x.

З умови задачі маємо: Величина х обчислюється з рівняння

Знайдемо числові значення кінців довірчого інтервалу:

Таким чином, маємо:

Отже, з надійністю 0,99 (99% гарантії) оцінюваний параметр перебуває усередині інтервалу [14,87; 15,13].

Приклад. Маємо такі дані про розміри основних фондів
(у млн грн.) на 30-ти випадково вибраних підприємствах:

4,2; 2,4; 4,9; 6,7; 4,5; 2,7; 3,9; 2,1; 5,8; 4,0;

2,8; 7,8; 4,4; 6,6; 2,0; 6,2; 7,0; 8,1; 0,7,; 6,8;

9,4; 7,6; 6,3; 8,8; 6,5; 1,4; 4,6; 2,0; 7,2; 9,1.

Побудувати інтервальний статистичний розподіл із довжиною кроку h = 2 млн грн.

З надійністю знайти довірчий інтервал для , якщо = 5 млн грн.

Розв’язання. Інтервальний статистичний розподіл буде таким:

h = 2 млн грн.	2—4	4—6	6—8	8—10
n_i	9	7	10	4

Для визначення необхідно побудувати дискретний статистичний розподіл, що має такий вигляд:

	3	5	7	9
n_i	9	7	10	4

Тоді

Для побудови довірчого інтервалу із заданою надійністю необхідно знайти х:

Обчислюємо кінці інтервалу:

Отже, довірчий інтервал для буде .

Розв’язання. Позначимо похибку вибірки

Далі маємо:

Як бачимо, надійність мала.

Приклад. Визначити обсяг вибірки n, за якого похибка гарантується з імовірністю 0,999, якщо .

Розв’язання. За умовою задачі Оскільки то дістанемо: Величину х знаходимо з рівності Тоді

Ефект впливу збільшення коефіцієнта коре-

ляції на інтервал довіри для параметра

Значення

95% ітервал довіри для

0.5

0.95

0.99

0.999

Коли мультиколінеарність не є проблемою?

Тестування наявності мультиколінеарності та засоби її вилучення

4. Високе значення R² і незначимість t-статистики.

Одночасна наявність цих двох факторів є “класичною” ознакою мультиколінеарності.

Розглянемо р-факторну регресійну модель .

5. Високе значення парних коефіцієнтів кореляції

Нульова й альтернативна гіпотези

Зміст нульової гіпотези записується так:

;

Наприклад, нульова гіпотеза стверджує: , а альтернативна гіпотеза — , тобто заперечує твердження нульової.

Прості і складні статистичні гіпотези

Проста гіпотеза, як правило, належить до параметра ознак генеральної сукупності і є однозначною.

Наприклад, згідно з простою гіпотезою параметр генеральної сукупності дорівнює конкретному числу, а саме:

;

Наприклад:

або .

Статистичний критерій.
Емпіричне значення критерію

Спостережуване значення критерію, який позначають через K*, обчислюють за результатом вибірки.

Область прийняття гіпотези.
Критична область. Критична точка

Отже, А — область прийняття Н₀,

— критична область, де Н₀ відхиляється.

Існують три види критичних областей:

Якщо при нульова гіпотеза відхиляється, то в цьому разі маємо правобічну критичну область (рис. 2).

Якщо ж при і при нульова гіпотеза відхиляється, то маємо двобічну критичну область

Рис. 3

Загальний алгоритм перевірки
правильності нульової гіпотези

Для перевірки правильності Н0 задається так званий рівень значущості a.

a — це мала ймовірність, якою наперед задаються. Вона може набувати значення a = 0,005; 0,01; 0,001.

Пропонується такий алгоритм перевірки правильності Н0:

1. Сформулювати Н0 й одночасно альтернативну гіпотезу Нa.

2. Вибрати статистичний критерій, який відповідав би сформульованій нульовій гіпотезі.

нехай , тоді, якщо

, то вибирається правобічна критична область, якщо

, то вибирається лівобічна критична область і коли

, то вибирається двобічна критична область.

5. За результатами вибірки обчислюється спостережуване значення критерію .

6. Відхиляють чи приймають нульову гіпотезу на підставі таких міркувань:

для лівобічної критичної області

;

для правобічної критичної області

;

для двобічної критичної області

або

ураховуючи ту обставину, що критичні точки і симетрично розташовані відносно нуля.

Помилки першого та другого роду.
Потужність критерію

Якщо Н₀ є правильною, але її відхиляють на основі її перевірки, то буде допущена помилка першого роду.

Якщо Н₀ є неправильною, але її приймають, то в цьому разі буде допущена помилка другого роду.

Між помилками першого і другого роду існує тісний зв’язок.

, .

Тому, коли гіпотеза Н₀є правдивою, . Цей розподіл має такий вигляд (рис. 4, крива f(x; a)).

Рис. 4

За вибраним рівнем значущості a визначається критична область (рис. 4).

Коли , то Н0 відхиляється з імовірністю помилки першого роду:

Коли , то Н0 не відхиляється, хоча може бути правильною альтернативна гіпотеза Нa.

Отже, в цьому разі припускаються помилки другого роду.

Імовірність цієї помилки, яку позначають символом b, може бути визначена на кривій f (x; b), а саме:

Ця ймовірність на рис. 4 показана штрихуванням площі під кривою f(x; b), що міститься ліворуч K_кр.

Різницю називають імовірністю обґрунтованого відхилення Н₀, або потужністю критерію.

Параметричні статистичні гіпотези

Перевірка правильності нульової гіпотези про значення генеральної середньої

При розв’язуванні такого класу задач можливий один із трьох випадків:

2) при — будується правобічна критична область;

2) при — будується лівобічна критична область;

3) при (тобто може бути , або ) — будується двобічна критична область.

, оскільки .

За таблицею значень функції Лапласа, скориставшись значенням , знаходимо аргумент .

Правобічна критична область зображена на рис. 5.

Рис. 5

Для побудови лівобічної критичної області необхідно знайти критичну точку , дотримуючись умови .

у цьому випадку обчислюється з допомогою рівняння

Рис. 6

Для двобічної критичної області необхідно знайти дві критичні точки , за умови

, ,

де .

Отож, нам необхідно обчислити лише , скориставшись рівнянням

де знаходимо за таблицею значень функції Лапласа.

Двобічна критична область зображена на рис. 7.

Рис. 7

У випадку, коли значення є невідомим, його замінюють статистичною оцінкою

Визначення мультиколінеарності та її природа

Мультиколінеарність може виникати за різних умов.

де не всі одночасно дорівнюють нулю.

де e – випадкова величина (помилка).

Різницю між досконалою і недосконалою мультиколінеарністю розглянемо для випадку, коли, наприклад, .

Вираз (1) можна тоді переписати таким чином:

Фактор є лінійною комбінацією інших факторів.

Аналогічно, вираз (2) можна записати:

Покажимо це для двофакторної регресійної моделі.

Нехай економетрична модель має такий вигляд:

де і пов’язані між собою залежністю .

Формули для оцінок параметрів мають такий вигляд (див. додаток 1):

Замінивши на , отримаємо:

Залишити відповідь Скасувати коментар

Вторинні форми туберкульозу легень

М’язові тканини

Фізіологія сенсорних систем

Анатомія серця: розташування і будова серця, анатомія камер серця. Велике і мале кола кровообігу. Будова стінки серця, кровопостачання серця. Перикард. Проекція серця на передню стінку грудної порожнини. Грудний відділ аорти: топографія, пристінкові та нутряні гілки. Система верхньої порожнистої вени.

Тубулоінтерстиціальний нефрит та амілоїдоз нирок

Чоловіча статева система. Жіноча статева система: Яєчник.

Приєднуйся до нас!

Підписатись на новини:

Наші соц мережі