Home » 09.Статистична перевiрка гiпотез

09.Статистична перевiрка гiпотез

22 Червня, 2024

СтатистичнА перевірка гіпотез про параметри розподілу ознаки. Перевірка статистичних гіпотез про рівність параметрів розподілу двох сукупностей.

Параметричні і непараметричні статистичні гіпотези

Статистичні рішення мають імовірнісний характер, тобто завжди існує ймовірність того, що прийняті рішення будуть помилковими.

Головна цінність прийняття статистичних рішень полягає в тому, що в межах імовірнісних категорій можна об’єктивно виміряти ступінь ризику, що відповідає тому чи іншому рішенню.

Будь-які статистичні висновки, здобуті на підставі обробки вибірки, називають статистичними гіпотезами.

Статистичні гіпотези про значення параметрів ознак генеральної сукупності називають параметричними.

Наприклад, висувається статистична гіпотеза про числові значення генеральної середньої , генеральної дисперсії D_Г, генерального середнього квадратичного відхилення s_Г та ін.

Статистичні гіпотези, що висуваються на підставі обробки вибірки про закон розподілу ознаки генеральної сукупності, називаються непараметричними.

Наприклад, на підставі обробки вибірки може бути висунута гіпотеза, що ознака генеральної сукупності має нормальний закон розподілу, експоненціальний закон та ін.

Нульова й альтернативна гіпотези

Гіпотезу, що підлягає перевірці, називають основною. Оскільки ця гіпотеза припускає відсутність систематичних розбіжностей (нульові розбіжності) між невідомим параметром генеральної сукупності і величиною, що одержана внаслідок обробки вибірки, то її називають нульовою гіпотезою і позначають Н0.

Зміст нульової гіпотези записується так:

;

Кожній нульовій гіпотезі можна протиставити кілька альтернативних (конкуруючих) гіпотез, які позначають символом Н_a, що заперечують твердження нульової.

Наприклад, нульова гіпотеза стверджує: , а альтернативна гіпотеза — , тобто заперечує твердження нульової.

Прості і складні статистичні гіпотези

Проста гіпотеза, як правило, належить до параметра ознак генеральної сукупності і є однозначною.

Наприклад, згідно з простою гіпотезою параметр генеральної сукупності дорівнює конкретному числу, а саме:

;

Складна статистична гіпотеза є неоднозначною. Вона може стверджувати, що значення параметра генеральної сукупності належить певній області ймовірних значень, яка може бути дискретною і неперервною.

Наприклад:

або .

Нульова гіпотеза може стверджувати як про значення одного параметра генеральної сукупності, так і про значення кількох параметрів, а також про закон розподілу ознаки генеральної сукупності.

Статистичний критерій.
Емпіричне значення критерію

Для перевірки правильності висунутої статистичної гіпотези вибирають так званий статистичний критерій, керуючись яким відхиляють або не відхиляють нульову гіпотезу. Статистичний критерій, котрий умовно позначають через K, є випадковою величиною, закон розподілу ймовірностей якої нам заздалегідь відомий.

Наприклад, для перевірки правильності як статистичний критерій K можна взяти випадкову величину, яку позначають через K = Z, що дорівнює

і яка має нормований нормальний закон розподілу ймовірностей. При великих обсягах вибірки (n > 30) закони розподілу статистичних критеріїв наближатимуться до нормального.

Спостережуване значення критерію, який позначають через K*, обчислюють за результатом вибірки.

Область прийняття гіпотези.
Критична область. Критична точка

Множину W всіх можливих значень статистичного критерію K можна поділити на дві підмножини А і , які не перетинаються.

Сукупність значень статистичного критерію K Î А, за яких нульова гіпотеза не відхиляється, називають областю прийняття нульової гіпотези.

Сукупність значень статистичного критерію K Î , за яких нульова гіпотеза не приймається, називають критичною областю.

Отже, А — область прийняття Н₀,

— критична область, де Н₀ відхиляється.

Точку або кілька точок, що поділяють множину W на підмножини А і , називають критичними і позначають через K_кр.

Існують три види критичних областей:

Якщо при K < K_крнульова гіпотеза відхиляється, то в цьому разі ми маємо лівобічну критичну область, яку умовно можна зобразити .

Якщо при нульова гіпотеза відхиляється, то в цьому разі маємо правобічну критичну область (рис. 2).

Якщо ж при і при нульова гіпотеза відхиляється, то маємо двобічну критичну область

Рис. 3

Лівобічна і правобічна області визначаються однією критичною точкою, двобічна критична область — двома критичними точками, симетричними відносно нуля.

Загальний алгоритм перевірки
правильності нульової гіпотези

Для перевірки правильності Н0 задається так званий рівень значущості a.

a — це мала ймовірність, якою наперед задаються. Вона може набувати значення a = 0,005; 0,01; 0,001.

В основу перевірки Н0 покладено принцип , тобто ймовірність того, що статистичний критерій потрапляє в критичну область , дорівнює малій імовірності a. Якщо ж виявиться, що а ця подія малоймовірна і все ж відбулася, то немає підстав приймати нульову гіпотезу.

Пропонується такий алгоритм перевірки правильності Н0:

1. Сформулювати Н0 й одночасно альтернативну гіпотезу Нa.

2. Вибрати статистичний критерій, який відповідав би сформульованій нульовій гіпотезі.

3. Залежно від змісту нульової та альтернативної гіпотез будується правобічна, лівобічна або двобічна критична область, а саме:

нехай , тоді, якщо

, то вибирається правобічна критична область, якщо

, то вибирається лівобічна критична область і коли

, то вибирається двобічна критична область.

4. Для побудови критичної області (лівобічної, правобічної чи двобічної) необхідно знайти критичні точки. За вибраним статистичним критерієм та рівнем значущості a знаходяться критичні точки.

5. За результатами вибірки обчислюється спостережуване значення критерію .

6. Відхиляють чи приймають нульову гіпотезу на підставі таких міркувань:

у разі, коли , а це є малоймовірною випадковою по-
дією, і, незважаючи на це, вона відбулася, то в цьому разі Н0 відхиляється:

для лівобічної критичної області

;

для правобічної критичної області

;

для двобічної критичної області

або

ураховуючи ту обставину, що критичні точки і симетрично розташовані відносно нуля. відносно нуля.

Помилки першого та другого роду.
Потужність критерію

Якою б не була малою величина a, потрапляння спостережуваного значення у критичну область ніколи не буде подією абсолютно неможливою. Тому не виключається той випадок, коли Н₀ буде правильною, а , а тому нульову гіпотезу буде відхилено.

Отже, при перевірці правильності Н₀ можуть бути допущені помилки. Розрізняють при цьому помилки першого і другого роду.

Якщо Н₀ є правильною, але її відхиляють на основі її перевірки, то буде допущена помилка першого роду.

Якщо Н₀ є неправильною, але її приймають, то в цьому разі буде допущена помилка другого роду.

Між помилками першого і другого роду існує тісний зв’язок.

Нехай, для прикладу, перевіряється . При великих обсягах вибірки n , як випадкова величина, закон розподілу ймовірностей якої асимптотично наближатиметься до нормального з числовими характеристиками:

, .

Тому, коли гіпотеза Н₀є правдивою, . Цей розподіл має такий вигляд (рис. 4, крива f(x; a)).

Рис. 4

Коли альтернативна гіпотеза заперечує Н₀ і стверджує , то в цьому разі нормальна крива буде зміщена праворуч (на рис. 4 крива f(x; b)).

За вибраним рівнем значущості a визначається критична область (рис. 4).

Коли , то Н0 відхиляється з імовірністю помилки першого роду:

Коли , то Н0 не відхиляється, хоча може бути правильною альтернативна гіпотеза Нa.

Отже, в цьому разі припускаються помилки другого роду.

Імовірність цієї помилки, яку позначають символом b, може бути визначена на кривій f (x; b), а саме:

Ця ймовірність на рис. 4 показана штрихуванням площі під кривою f(x; b), що міститься ліворуч K_кр.

Якщо з метою зменшення ризику відхилити правильну гіпотезу Н₀ зменшуватимемо значення a, то в цьому разі критична точка K_кр зміщуватиметься праворуч, що, у свою чергу, спричинює збільшення ймовірності помилки другого роду, тобто величини b.

Різницю називають імовірністю обґрунтованого відхилення Н₀, або потужністю критерію.

Під час розв’язування практичних завдань може виникнути потреба вибору статистичного критерію з їх певної множини. У цьому разі вибирають той критерій, якому притаманна найбільша потужність.

Параметричні статистичні гіпотези

Перевірка правильності нульової гіпотези про значення генеральної середньої

Для перевірки правильності , де «а» є певним числом, при заданому рівні значущості a насамперед необхідно вибрати статистичний критерій K.

Найзручнішим критерієм для цього типу задач є випадкова величина K = Z, що має нормований нормальний закон розподілу ймовірностей N(0; 1), а саме:

При розв’язуванні такого класу задач можливий один із трьох випадків:

1) при — будується правобічна критична область;

2) при — будується лівобічна критична область;

3) при (тобто може бути , або ) — будується двобічна критична область.

Лівобічна і правобічна критичні області визначаються однією критичною точкою, двобічна — двома критичними точками, розташованими симетрично щодо нуля (у цьому разі потужність критерію буде максимальною), будуть рівними між собою за модулем і матимуть протилежні знаки.

Для побудови правобічної критичної області необхідно знайти критичну точку за умови . Значення обчислюємо з рівняння

, оскільки .

За таблицею значень функції Лапласа, скориставшись значенням , знаходимо аргумент .

Правобічна критична область зображена на рис. 5.

Рис. 5

Для побудови лівобічної критичної області необхідно знайти критичну точку , дотримуючись умови .

у цьому випадку обчислюється з допомогою рівняння

Враховуючи ту обставину, що функція Лапласа є непарною, за таблицею значень знаходимо аргумент і беремо його із знаком «мінус» . Лівобічна критична область зображена на рис. 6

Рис. 6

Для двобічної критичної області необхідно знайти дві критичні точки , за умови

, ,

де .

Отож, нам необхідно обчислити лише , скориставшись рівнянням

де знаходимо за таблицею значень функції Лапласа.

Двобічна критична область зображена на рис. 7.

Рис. 7

Розглянутий метод побудови критичних областей придатний лише за умови, коли відоме значення середнього квадратичного відхилення ознаки генеральної сукупності. При цьому спостережуване значення критерію обчислюється так:

У випадку, коли значення є невідомим, його замінюють статистичною оцінкою

Тоді за статистичний критерій вибирається випадкова величина K = t, що має розподіл Стьюдента з k = n – 1 ступенями свободи, а саме:

Критичні точки у цьому разі визначаються за таблицею (додаток 6) заданим рівнем значущості a та числом ступенів свободи k = n – 1. Спостережуване значення критерію обчислюється за формулою

Правильність вибору закону розподілу чи оцінки його параметрів для генеральної сукупності перевіряється за допомогою статистичних методів перевірки статистичних гіпотез.

Під статистичною гіпотезою будемо розуміти припущення відносно закону розподілу генеральної сукупності чи оцінки його параметрів. Можливі інші гіпотези: про рівність параметрів двох чи декількох розподілів, про незалежність вибірок тощо.

Статистичною називають гіпотезу про вигляд невідомого розподілу або про параметри невідомих розподілів. Наприклад, статистичними є гіпотези:

1) генеральна сукупність, розподілена за нормальним законом;

2) дисперсії двох нормальних розподілів, рівні між собою.

Нульовою (основною) називають запропоновану гіпотезу, яку ми будемо позначати через .

Альтернативною (конкуруючою) називають гіпотезу , яка суперечить основній.

Розрізняють також гіпотези за кількістю припущень.

Простою називають гіпотезу, яка має одне припущення, інакше гіпотеза є складною.

Наприклад: 1. У законі Пуассона l = 3 – проста гіпотеза;

2. Якщо l > 3, то це складна гіпотеза.

Висунута гіпотеза може бути правильною або неправильною, тому виникає необхідність її перевірки. Оскільки перевірка проводиться статистичними методами, то її називають статистичною. При прийнятті рішень за допомогою гіпотез можуть статися помилки двох родів.

Помилка першого роду полягає в тому, що буде відкинута правильна гіпотеза, тобто гіпотеза є правильною, але її відхиляють на основі її перевірки.

Помилка другого роду полягає в тому, що буде прийнята неправильна гіпотеза, тобто гіпотеза приймається, але в дійсності вірна конкуруюча гіпотеза .

Імовірність здійснити помилку першого роду позначимо через a і будемо називаємо її рівнем значущості.

Число a задають малим і найчастіше використовують значення a, що дорівнюють 0,05; 0,01 і т. д. Якщо, наприклад, a = 0,01, то це означає, що в одному випадку із 100 є ризик допустити помилку першого роду (відкинути гіпотезу ).

Для перевірки гіпотез використовуємо спеціально підібрану величину, точне чи наближене значення якої відоме.

Статистичним критерієм називають випадкову величину , яка є основою для перевірки нульової гіпотези.

Найбільш розповсюдженим критерієм перевірки вірогідності про закон розподілу ознаки генеральної сукупності є критерій узгодженості , який визначається за формулою .

Тут m – число інтервалів (часткових), на які поділяється статистичний розподіл вибірки; – частота ознаки в і-у інтервалі; — теоретичні частоти, підраховані за відповідними формулами закону розподілу ймовірностей, який припускається для ознаки генеральної сукупності.

Теоретичні частоти знаходяться за формулою , де n – об’єм вибірки; – для дискретної випадкової величини є ймовірність події X = х_i, для неперервної випадкової величини є ймовірність того, що ознака X попаде в і-ий інтервал.

Наприклад, для гіпотези , яка припускає, що ознака генеральної сукупності має нормальний закон розподілу, імовірність може бути обчислена за формулою , де – функція Лапласа.

Для перевірки правильності гіпотез, як уже згадувалося, вибирається статистичний критерій, який умовно позначається через , де – випадкова величина, закон розподілу якої відомий. Для різних гіпотез ці критерії є різними.

Множину R значень статистичного критерію можна розбити на дві підмножини, що не перетинаються, А і .

Значення статистичного критерію підмножини , при яких нульова гіпотеза приймається, називається областю прийняття гіпотези, а значення, при яких гіпотеза відхиляється, критичною областю.

За характером критичні області поділяються на односторонні та двосторонні.

Області А і (прийняття гіпотез і критичні) між собою розділяються точками, які ми будемо називати критичними і позначати .

Правосторонньою критичною областю називається така область, для якої виконується нерівність (рис. 4.1а).

а б в

Рис. 4.1

Відповідно критична область буде лівосторонньою, якщо виконується нерівність (рис. 4.1б).

Двосторонньою будемо називати критичну область, яка задовольняє нерівності і (рис. 4.1в).

У більшості випадків для двосторонньої критичної області точки і розташовані симетрично по відношенню до нуля, тобто .

Перевірка статистичних гіпотез будь-якої природи може бути описана за допомогою такої загальної схеми.

1. Формулюється статистична гіпотеза і альтернативна .

2. Вибирається статистичний критерій відповідно до сформульованої нульової гіпотези .

3. Залежно від змісту нульової і альтернативної гіпотез вибирається одностороння або двостороння критична область.

4. Для побудови критичної області необхідно знайти значення критичних точок.

В основі побудови критичної області покладено принцип практичної неможливості здійснитися малоймовірній випадковій події при одній спробі. За вибраним статистичним критерієм та рівнем значущості з допомогою спеціальних таблиць визначається критична точка . Згідно знайденого відповідно будується лівостороння, правостороння або двостороння критична область.

5. За результатами вибірки обчислюється спостережене значення критерію .

6. Приймається рішення прийняти чи відхилити нульову гіпотезу на підставі таких міркувань: якщо гіпотеза правильна, то , тобто ймовірність того, що статистичний критерій потрапляє в критичну область , дорівнює малій ймовірності . Якщо потрапляє в критичну область , а ця подія малоймовірна і все ж відбулася, то в цьому разі відхилити.

7. Це твердження має наступний вигляд для різних типів областей: для лівосторонньої критичної області: , для правосторонньої

, для двосторонньої області .

8. Враховуючи ту обставину, що критичні точки і розташовані симетрично відносно нуля, двосторонню критичну область будують також симетричною, отже .

9. Якщо не потрапляє у критичну область, то нульова гіпотеза приймається.

4.2. Перевірка правильності нульової гіпотези про рівність двох дисперсій

Одним із важливих завдань математичної статистики є порівняння двох або кількох вибіркових дисперсій. Таке порівняння дає можливість визначити, чи можна вважати вибіркові дисперсії статистичними оцінками однієї і тієї самої дисперсії генеральної сукупності. Воно застосовується передусім при обчисленні дисперсій за результатами технологічних вимірювань.

Порівняння дисперсій здійснюється зіставленням виправлених дисперсій , , які відповідно мають закон розподілу із , ступенями вільності, де і є обсяги першої і другої вибірок.

Нехай перша вибірка здійснена з генеральної сукупності з ознакою Y, дисперсія якої дорівнює , друга –– з генеральної сукупності з ознакою Х, дисперсія якої дорівнює . Необхідно перевірити правильність нульової гіпотези .

За статистичний критерій береться випадкова величина , яка має розподіл Фішера – Снедекора із i ступенями вільності, де є більшою з виправлених дисперсій, одержаною внаслідок обробки результатів вибірок, є меншою з виправлених дисперсій.

Щільність ймовірностей розподілу Фішера – Снедекора

визначена лише на додатній півосі, тобто .

Спостережуване значення критерію

. (4.1)

Зразки розв’язування задач

Приклад 1. Під час дослідження стабільності температури в термостаті дістали такі результати: 21,2; 21,8; 21,3; 21,0; 21,4; 21,3.

З метою стабілізації температури було використано удосконалений пристрій, після цього заміри температури показали такі результати: 37,7; 37,6; 37,6; 37,4. Чи можна вважати використання удосконаленого пристрою до стабілізатора температури ефективним, якщо рівень значущості a = 0,01?

Розв’язання. Очевидно, що ефективність стабілізаторів без удосконаленого пристрою і з ним залежить від дисперсій вимірюваних ними температур. Отже, задача звелась до порівняння двох дисперсій.

Обчислимо виправлені вибіркові дисперсії:

;

Обчислимо спостережуване значення критерію:

Число ступенів вільності для більшої виправленої дисперсії,

, для меншої , .

Оскільки удосконалення стабілізатора температур може тільки зменшити дисперсію, то будуємо правобічну критичну область. Отже, .

Критичну точку знаходимо за таблицею (додаток 6) відповідно до заданого рівня значущості a = 0,01 і числа ступенів вільності = 5, = 3, .

Висновок. Оскільки , дані спостережень не дають підстав відхилити нульову гіпотезу, тобто вдосконалення термостабілізатора є ефективним.

Приклад 2. За заданими статистичними розподілами вибірок, які реалізовано з генеральних сукупностей, ознаки яких Х і Y є незалежними і мають нормальний закон розподілу,

*y_i*	1,2	2,2	3,2	4,2	5,2
	1	2	4	2	3

*x_j*	0,8	1,6	2,4	3,2	4
	2	6	1	1	2

при рівні значущості a = 0,01 перевірити правильність нульової гіпотези , якщо альтернативна гіпотеза .

Розв’язання. Обчислимо значення :

;

Обчислимо спостережуване значення критерію

Для альтернативної гіпотези будуємо правобічну критичну область. Знайдемо за таблицею (додаток 6) критичну точку

Висновок. Оскільки , нульова гіпотеза є правильною.

Завдання для самостійної роботи

1. Норма витрат на технічне обслуговування і ремонт нових марок тракторів вимірювалась у двох сільських господарствах району. Результати вимірювань показано двома статистичними розподілами:

*y_i*, грн/га	0,58	0,6	0,62	0,64	0,66		*x_j*, грн/га	0,56	0,6	0,64	0,7	0,74
	2	3	10	4	1			4	6	3	2	1

Ознаки Х і Y (норми витрат) є незалежними випадковими величинами, що мають нормальний закон розподілу. При рівні значущості a = 0,001 перевірити правильність нульової гіпотези

, якщо альтернативна гіпотеза

Відповідь: ; ; ; відхиляється.

2. Визначалися річні середні витрати електроенергії на комунально-побутові вимоги для одного мешканця у двох містах. Результати розрахунків подано двома статистичними розподілами для першого і другого міст:

*y_i*, Вт/м.	700	708	716	724	732	740		*x_j*, Вт/м.	706	710	714	718	722	726	730
	5	6	9	6	3	1			8	10	12	5	2	2	1

Ознаки Х і Y (річні витрати в кВт/особу) є незалежними між собою і мають нормальний закон розподілу. При рівні значущості a = 0,001 перевірити правильність нульової гіпотези.

, якщо альтернативна гіпотеза;

Відповідь: ; ; ; не відхиляється.

4.3. Критерій перевірки гіпотези про вигляд
невідомого закону розподілу

Критерієм згоди називають критерій перевірки гіпотези про вигляд невідомого закону розподілу

Є декілька критеріїв згоди: («хі квадрат») Пірсона, Колмогорова, Смірнова і т.д. Для простоти обмежимося лише описом застосування критерію Пірсона для перевірки гіпотези про нормальний розподіл генеральної сукупності, оскільки інші закони перевіряються аналогічно.

Для перевірки критерію згоди за конкретними формулами порівнюємо емпіричні частоти (за даними вибірки) і теоретичні – (обчислені в припущенні, що закон розподілу генеральної сукупності завдань, наприклад, у нашому випадку – нормальний).

В основі критерію згоди Пірсона покладена критеріальна статистика, що має вигляд:

. (4.2)

Чим менше відрізняються значення емпіричних і теоретичних частот, тим меншим буде значення і, отже, більш точно характеризує близькість теоретичного і емпіричного розподілів.

Значення критичної точки для критерію згоди Пірсона залежить від рівня значущості і числа ступенів вільності .

Число ступенів вільності розподілу визначається за формулою , де – число інтервалів статистичного ряду, r – число параметрів закону теоретичного розподілу, що оцінюється за даними вибірки (для нормального закону , оскільки цей закон виконується двома параметрами і ).

Зразки розв’язування задач

Приклад 1. При рівні значущості 0,01 перевірити гіпотезу про нормальний розподіл генеральної сукупності, якщо емпіричні і теоретичні частоти задаються наступною таблицею:

емпіричні частоти ()	4	4	10	10	13	16
теоретичні частоти ()	6	8	11	12	10	10

Розв’язання. Складемо таблицю:


1	4	6	-2	4	0,67
2	4	8	-4	16	2
3	10	11	-1	1	0,09
4	10	12	-2	4	0,33
5	13	10	3	9	0,9
6	16	10	6	36	3,6
Сума	57	57			7,59

Отже, .

Число ступенів вільності в нашому прикладі . За таблицею критичних точок розподілу (додаток 4) при значеннях і знаходимо .

Оскільки , а критична область правостороння, то немає підстави для відхилення нульової гіпотези. Іншими словами, розбіжність між теоретичними і емпіричними частотами незначна, тому дані спостережень узгоджуються з гіпотезою про нормальний закон розподілу генеральної сукупності.

Приклад 2. Вимірювання зросту юнаків віком 17 років дав такі результати:

, cм	154–158	158–162	162–166	166–170	170–174	174–178	178–182	182–186
*n_i*	8	14	20	32	12	8	4	2

Визначити гіпотетично, який закон розподілу має ознака Х – зріст юнака. При рівні значущості a = 0,01 перевірити правильність висунутої нульової гіпотези.

Розв’язання. Для заданого статистичного розподілу побудуємо гістограму частот (рис. 4.2).

Рис. 4.2

За формою гістограми частот можемо припустити, що ознака Х має нормальний закон розподілу. Отже, висуваємо нульову гіпотезу Н₀: ознака Х має нормальний закон розподілу ймовірностей. Для перевірки правильності Н₀ використаємо критерій узгодженості Пірсона.

*x_i*	156	160	164	168	172	176	180	184
*n_i*	8	14	20	32	12	8	4	2

Необхідно обчислити теоретичні частоти, для цього знайдемо значення , побудувавши дискретний розподіл за заданим інтервальним:

cм;

см.

Обчислення теоретичних частот наведено в таблиці:

*x_i*	*x_i+*₁	*n_i*
154	158	8	– 2,04	– 1,42	– 0,4793	– 0,4222	6
158	162	14	– 1,42	– 0,79	– 0,4222	– 0,2852	14
162	166	20	– 0,79	– 0,16	– 0,2852	– 0,0636	22
166	170	32	– 0,16	0,464	– 0,0636	0,1772	24
170	174	12	0,464	1,09	0,1772	0,3621	19
174	178	8	1,09	1,72	0,3621	0,4573	10
178	182	4	1,72	2,34	0,4573	0,4904	3
182	186	2	2,34	2,97	0,4904	0,4986	1

Обчислення спостережуваного значення наведено в таблиці:

і	*n_i*	*np_i*	*n_i – np_i*	*(n_i – np_i)²*
1	8	6	2	4	0,667
2	14	14	0	0	0
3	20	22	– 2	4	0,182
4	32	24	8	64	2,667
5	12	19	– 7	49	2,579
6	8	10	– 2	4	0,4
7	4	3	1	1	0,333
8	2	1	1	1	1

За таблицею (додаток 4) знаходимо значення

Висновок. Оскільки , немає підстав для відхилення нульової гіпотези Н₀ про нормальний закон розподілу ймовірностей ознаки Х.

Приклад 3. За заданим статистичним розподілом вибірки:

, cм	0–10	10–20	20–30	30–40	40–50
*n_i*	40	30	20	6	4

з’ясувати гіпотетично закон розподілу ймовірностей випадкової величини Х. При рівні значущості a = 0,01 перевірити правильність цього припущення.

Розв’язання. Для визначення закону розподілу ознаки Х побудуємо гістограму частот (рис. 4.3).

За формою гістограми частот можна гіпотетично стверджувати, що ознака Х має експоненціальний закон розподілу ймовірностей.

Для перевірки правильності цього твердження використаємо критерій узгодженості Пірсона. Теоретичні частоти в цьому разі обчислюються за формулою: , де .

Рис. 4.3

Отже, необхідно обчислити , побудувавши дискретний статистичний розподіл за наведеним інтервальним, а саме:

*x_i*	5	15	25	35	45
*n_i*	40	30	20	6	4

Оскільки , то

. Тоді .

Обчислення теоретичних частот наведено в таблиці:

*x_i*	*x_i+1*	*n_i*
0	10	40	1	0,522	48
10	20	30	0,522	0,273	25
20	30	20	0,273	0,142	13
30	40	6	0,142	0,074	7
40	50	4	0,074	0,0039	7

Обчислення спостережуваного значення критерію наведено в таблиці:

*n_i*	*np_i*	*n_i – np_i*	*(n_i – np_i)²*
40	48	–8	64	1,33
30	25	5	25	1
20	13	7	49	3,77
6	7	– 1	1	0,14
4	7	– 3	9	1,29

За таблицею (додаток 4) знаходимо значення критичної точки

Висновок. Оскільки , нульова гіпотеза про експоненціальний закон розподілу ознаки Х приймається.

Завдання для самостійної роботи

За заданими статистичними розподілами вибірки висунути Н₀ про закон розподілу ознаки генеральної сукупності і при рівні значущості a = 0,01 перевірити її правильність:

1. Результати вимірювання граничного навантаження на сталевий болт наведено інтервальним статистичним розподілом:

x_i, кг/мм²,

h = 1

4,5–5,5

5,5–6,5

6,5–7,5

7,5–8,5

8,5–9,5

9,5–10,5

10,5–11,5

11,5–12,5

12,5–13,5

n_i

2. Вимірювався вміст фосфору в чавуні. Результати вимірювання наведено у вигляді інтервального статистичного розподілу:

x_i, %,

h = 0,02

0,36–0,38

0,38–0,4

0,4–0,42

0,42–0,44

0,44–0,46

0,46–0,48

0,48–0,5

0,5–0,52

n_i

4.4. Перевірка гіпотези про значущість вибіркового коефіцієнта кореляції

Нехай двомірна генеральна сукупність розподілена нормально. З цієї сукупності вилучена вибірка об’ємом і обчислений вибірковий коефіцієнт кореляції , який є відмінним від нуля. Так як вибірка обрана випадково, то ще неможливо стверджувати, що коефіцієнт кореляції генеральної сукупності також відмінний від нуля. Оскільки нас цікавить саме цей коефіцієнт, виникає необхідність при заданому рівні значущості перевірити нульову гіпотезу : – про рівність нулю генерального коефіцієнта кореляції при конкуруючій гіпотезі : .

Якщо нульову гіпотезу буде відкинуто, то це означає, що вибірковий коефіцієнт кореляції значущо відрізняється від нуля (коротко кажучи, значно), а та корельовані, тобто пов’язані лінійною залежністю.

Якщо нульову гіпотезу буде прийнято, то вибірковий коефіцієнт кореляції незначущий, а та некорельовані, тобто не пов’язані лінійною залежністю.

Правило. Для того, щоб за заданим рівнем значущості перевірити нульову гіпотезу : , про рівність нулю генерального коефіцієнта кореляції нормальної двомірної випадкової величини при конкуруючій гіпотезі : , необхідно обчислити спостережуване значення критерія:

Далі за таблицею критичних точок розподілу Стьюдента (додаток 5), за даним рівнем значущості і числом ступенів вільності необхідно знайти критичну точку для двосторонньої критичної області.

Якщо – немає сенсу відкидати нульову гіпотезу.

Якщо –нульову гіпотезу відкидаємо.

Приклад . За вибіркою об’ємом , вилученої із нормальної двовимірної сукупності, знайдено вибірковий коефіцієнт кореляції . За рівнем значущості перевіримо нульову гіпотезу про рівність нулю генерального коефіцієнта кореляції при альтернативній гіпотезі : .

Розв’язання. Знайдемо спостережуване значення критерію: .

За умовою альтернативна гіпотеза має вигляд , тому критична область – двостороння.

За рівнем значущості і числом ступенів вільності знаходимо за таблицею 5 для двосторонньої критичної області критичну точку .

Оскільки – нульову гіпотезу відкидаємо. Іншими словами, вибірковий коефіцієнт кореляції значно відрізняється від нуля, тобто та корельовані.

Завдання для самостійної роботи

1. За вибіркою об’ємом , вилученої із нормальної двовимірної генеральної сукупності , знайдено вибірковий коефіцієнт кореляції . Необхідно за рівнем значущості перевірити нульову гіпотезу про рівність нулю генерального коефіцієнта кореляції при альтернативній гіпотезі : .

Відповідь: ; ; . Немає підстав відкидати нульову гіпотезу; та некорельовані випадкові величини.

2. За вибіркою об’ємом , вилученої із нормальної двовимірної генеральної сукупності , знайдено вибірковий коефіцієнт кореляції . За рівнем значущості перевірити нульову гіпотезу про рівність нулю генерального коефіцієнта кореляції при конкуруючій гіпотезі : .

Відповідь: ; ; . Нульова гіпотеза відкидається; та – корельовані випадкові величини.

Розділ 5

Елементи кореляційного та регресійного аналізу

5.1. Загальна інформація

При сумісній появі двох і більше величин у результаті проведення експерименту дослідник має підстави для встановлення певної залежності між ними, зв’язку.

Строгої функціональної залежності між змінними, у буквальному розумінні цього слова, у реальному світі не існує, бо вони перебувають під впливом випадкових факторів, наслідки якого передбачити практично неможливо. Тому між змінними існує особлива форма зв’язку, яку називають стохастичною і яка в математичній статистиці трансформується, не змінюючи своєї сутності, у статистичну залежність.

Показником, що вимірює стохастичний зв’язок між змінними, є коефіцієнт кореляції, який свідчить з певною мірою ймовірності, наскільки зв’язок між змінними близький до строгої лінійної залежності.

Значно збільшується цінність коефіцієнта кореляції для випадкових змінних, що мають закон розподілу ймовірностей, близький до нормального. Для таких величин відсутність кореляції одночасно означає і відсутність будь-якої залежності між ними.

За наявності кореляційного зв’язку між змінними необхідно виявити його форму функціональної залежності (лінійна чи нелінійна), а саме:

; ; .

Наведені можливі залежності між змінними X і Y називають функціями регресії. Форму зв’язку між змінними X і Y можна встановити, застосовуючи кореляційні поля, які зображені на рисунках 5.1–5.3.

Рис. 5.1

Рис. 5.2

Рис. 5.3

Тут кожній точці з координатами x_i, y_i відповідає певне числове значення ознак X та Y.

Коли зв’язок між ознаками лінійний, використовують лінійний коефіцієнт кореляції. Його розраховують за формулою:

Він приймає значення від –1 до 1 і характеризує не тільки щільність зв’язку, а і його напрям. Чим ближче до 1, тим тісніше лінійний кореляційний зв’язок. Додатне значення означає прямий зв’язок між ознаками, а від’ємне – зворотний. Щільність зв’язку приблизно можна оцінити так:

– для – слабка,

– для – середня,

– для – цільна.

На рис. 5.1 більшість точок утворюють множину, що має тенденцію при збільшенні значень X зумовлювати збільшення значень ознаки Y ( коефіцієнт кореляції більше 0 ). На рис. 5.2 множина точок має тенденцію при збільшенні значень Х зумовлювати зменшення Y ( коефіцієнт кореляції менше 0 ). На
рис. 5.3 точки рівномірно розміщені на координатній площині хОy, що свідчить про відсутність кореляційної залежності між ознаками Х і Y.

Отже, на основі розміщення точок дослідник має підстави для гіпотетичного припущення про лінійні чи нелінійні залежності між ознаками Х і Y. Для двовимірного статистичного розподілу вибірки ознак (Х, Y) поняття статистичної залежності між ознаками Х та Y має таке визначення.

Статистичною залежністю Х від Y називають таку, за якої при зміні значень ознаки Y = y_i змінюється умовний статистичний розподіл ознаки Х, статистичною залежністю ознаки Y від Х називають таку, за якої зі зміною значень ознаки X = x_i змінюється умовний статистичний розподіл ознаки Y.

У разі зміни умовних статистичних розподілів змінюватимуться і умовні числові характеристики. Звідси випливає визначення кореляційної залежності між ознаками X і Y.

Кореляційною залежністю ознаки Y від X називається функціональна залежність умовного середнього від аргументу х, що можна записати так:

Аналогічно кореляційною залежністю ознаки X від Y називається функціональна залежність умовного середнього від аргументу y, що можна записати так:

Між ознаками Х та Y може існувати статистична залежність і за відсутності кореляційної. Але коли існує кореляційна залежність між ознаками Х та Y, то обов’язково між ними існуватиме і статистична залежність.

Кореляційно – регресійний аналіз складається з таких етапів:

– вибір форми регресії;

– визначення параметрів рівняння;

– оцінка тісноти зв’язку;

– перевірка істотності зв’язку.

При виборі функції використовують графіки, аналітичні групування, теоретичне обґрунтування. Можливий перебір функцій, коли обчислюють різні рівняння регресії та обирають найкраще.

Визначення параметрів рівняння регресії проводиться методом найменших квадратів, основою якого є мінімізація суми квадратів відхилень емпіричних значень від теоретичних:

Найбільш поширена у статистичному аналізі лінійна функція.

5. 2. Рівняння лінійної парної регресії

Нехай між змінними Х та Y теоретично існує певна лінійна залежність. Це твердження може ґрунтуватися на тій підставі, наприклад, що кореляційне поле для пар має такий вигляд (рис. 5.4). Як бачимо, насправді між ознаками Х і Y спостерігається не такий тісний зв’язок, як це передбачає функціональна залежність.

Рис. 5.4

Рівняння лінійної парної регресії набере такого вигляду:

(5.1)

або

, (5.2)

де – коефіцієнт регресії, r_xy —парний коефіцієнт кореляції між ознаками X і Y.

Показники кореляції часто розраховуються за даними вибірки, тому одержані показники не є точними оцінками показників кореляції в генеральній сукупності. Необхідно визначити точність оцінки показників кореляції та перевірити їх істотність.

При великому обсязі вибірки з нормально розподіленої сукупності, якщо величина лінійного коефіцієнта кореляції перевищує величину середньої квадратичної похибки більш ніж у разів, а нульова гіпотеза – лінійний коефіцієнт кореляції дорівнює нулю, то вибірковий коефіцієнт кореляції можна вважати істотним (нульова гіпотеза не підтверджується). Тут – рівень значущості, його найчастіше обирають рівним 0,05 або 0,01; r – значення лінійного коефіцієнта кореляції за даними вибірки; n – обсяг вибірки. Якщо ж відношення виявиться меншим за , то з імовірністю (1–) треба вважати кореляційний зв’язок у генеральній сукупності відсутнім. Значення в цьому випадку для = 0,95 дорівнює 1,96, а для = 0,99 дорівнює 2,58, тобто з імовірністю 0,99 можна стверджувати, що коефіцієнт кореляції генеральної сукупності знаходиться в інтервалі .

Для малого обсягу вибірки розрахункове значення параметра порівнюють з табличним значенням за таблицею закону розподілу Стьюдента з (n – 2) ступенями вільності. Якщо розрахункове значення перевищує табличне, то з імовірністю (1 – ) коефіцієнт кореляції можна вважати істотним, тобто гіпотезу про відсутність кореляційного зв’язку між випадковими величинами (X, Y) слід відкинути і прийняти альтернативну гіпотезу про наявність залежності між цими випадковими величинами.

Лінійна регресійна модель називається адекватною, якщо обчислені за рівнянням регресії значення погоджуються з результатами спостережень.

Перевірку істотності зв’язку здійснюють за допомогою F – критерію Фішера: , де m – число параметрів рівняння регресії.

За рівнем значущості , числами та за таблицями F – розподілу Фішера (додаток 6) знаходять критичне значення і, якщо , нульову гіпотезу спростовують, зв’язок вважають істотним, а рівняння – значущим.

Інколи використовують спрощений метод перевірки значущості коефіцієнта кореляції: якщо , то зв’язок між випадковими величинами та досить ймовірний

Зразки розв’язування задач

Приклад 1. Залежність розчинності тіосульфату від температури х_інаведено парним статистичним розподілом вибірки:

Y = y_i	33,5	37,0	41,2	46,1	50,0	52,9	56,8	64,3	69,9
X = x_i	0	10	20	30	40	50	60	70	80

Потрібно:

1) побудувати кореляційне поле залежності ознаки Y від X;

2) обчислити r_xy ;

3) побудувати графік лінії регресії.

Розв’язання. 1) Кореляційне поле залежності ознаки Y від X має такий вигляд (рис. 5.5).

Рис. 5.5

Очевидно (рис. 5.5), що із збільшенням значень ознаки залежна зміна має тенденцію до збільшення.

2) Для обчислення r_xy складемо таблицю:

№ з/п	*х_і*	*у_і*		*х_і у_і*
1	0	33,5	0	0	1122,25
2	10	37,0	100	307	1369,00
3	20	41,2	400	824	1697,44
4	30	46,1	900	1383	2125,21
5	40	50,0	1000	2000	2500,00
6	50	52,9	2500	2645	2798,41
7	60	56,8	3600	3408	3226,24
8	70	64,3	4900	4501	4134,49
9	80	69,9	6400	5592	4886,01
Σ	360	451,7	20400	20723	23859,05

Оскільки n = 9,

Для обчислення необхідно знайти

;

Отже, рівняння регресії буде таким:

Як бачимо, коефіцієнт кореляції близький за своїм значенням до одиниці, що свідчить про те, що залежність між Х та Y є практично лінійною.

Перевіримо гіпотезу про значущість коефіцієнта регресії, яка складається у виконанні ознаки Стьюдента , де значення знаходять з таблиці розподілу Стьюдента (додаток 5).

Обчислимо t за формулою: t = =. При заданій довірчій ймовірності =0,95 і k=7 t_0,05;7= 2,36. Отже, нерівність виконана, оскільки t= 26,49> 2,36. Лінійна регресія описує нашу залежність, форма зв’язку між ознаками Х і Y є лінійною.

3) Графік парної лінійної функції регресії подано на рис. 5.6.

Рис. 5.6

Приклад 2. Кореляційна таблиця має вигляд:

Y Х	4	9	14	19	24	29
130	3	3	–	–	–	–
140	–	5	4	–	–	–
150	–	–	40	2	8	–
160	–	–	5	10	6	–
170	–	–	–	4	7	3

Знайти рівняння регресії Y на X та рівняння регресії X на Y.

Розв’язання. 1. Знайдемо суми частот n_x за рядками і n_y за стовпцями.

Y Х	4	9	14	19	24	29
130	3	3	–	–	–	–	6
140	–	5	4	–	–	–	9
150	–	–	40	2	8	–	50
160	–	–	5	10	6	–	21
170	–	–	–	4	7	3	14
	3	8	49	16	21	3	100

Обчислимо середні і :

2. Обчислимо дисперсії:

3. Щоб обчислити коефіцієнт кореляції r_xy, спочатку знайдемо момент кореляції:

Тоді коефіцієнт кореляції:

= = 0,764.

4. Рівняння регресії Y на X:

, ,

= 0,412 x – 46,281,

та рівняння регресії X на Y:

, = 1,417 y + 129,203.

Перевіримо гіпотезу про значущість коефіцієнта регресії за однією з двох ознак:

а) повинна виконуватися нерівність:

, 0,764 = 7,6 > 3,

отже, лінійна регресія описує задану залежність.

б) повинна виконуватися ознака Стьюдента:

, t = ,

де значення знаходять з таблиці розподілу Стьюдента (число ступенів вільності k= n–2, рівень значущості , де – довірча ймовірність).

У нашому випадку t = 11,72. При заданій довірчій ймовірності =0,95, k=98, =1,99 виходить, що нерівність виконана, тому що t =11,72 > 1,99.

Лінійна регресія описує задану залежність.

Завдання для самостійної роботи

В задачах 1–3 виконати наступні вправи:

1) побудувати кореляційне поле залежності ознаки Y від X;

2) обчислити r_xy ;

3) побудувати графік лінії регресії.

1. Залежність вмісту срібла в руді Y від вмісту свинцю наведено в таблиці:

*Y = y_i*, %	2	6	10	14	18	22	26	30
*X = x_i*, %	2,5	7,5	12,5	17,5	22,5	27,5	32,5	37,5

2. Залежність пружності Y сталевих болтів від вмісту в них нікелю Х наведена в таблиці:

*Y = y_i*, %	35,4	35,0	35,8	36,2	36,7	36,9	37,3	37,8	38,2
*X = x_i* , %	2,20	2,35	2,42	2,58	2,65	2,69	2,74	2,88	2,91
*Y = y_i*, %	39,1	40,5	42,4	43,8	45,6	46,9	48,5	49,4	50,0
*X = x_i* , %	2,95	2,99	3,00	3,11	3,21	3,29	3,34	3,44	3,50

3. Результати порівняння нового методу газового аналізу Y зі старим Х наведено в таблиці:

*Y = y_i*, умов. од.	2,88	2,91	2,92	2,96	3,01	3,11	3,21	3,25
*X = x_i*, умов. од.	2,07	2,12	2,11	2,58	2,89	2,92	3,01	3,12

*Y = y_i*, умов. од.	3,32	3,36	3,42	3,46	3,58	3,88	4,12
*X = x_i*, умов. од.	3,21	3,29	3,31	3,35	3,41	3,48	3,81

Y Х	4	9	14	19	24	29
30	3	3	–	–	–	–
40	–	5	4	–	–	–
50	–	–	40	2	8	–
60	–	–	5	10	6	–
70	–	–	–	4	7	3

4. Дана кореляційна таблиця. Написати рівняння регресії Y на X, та рівняння регресії X на Y.

5.3. Множинна лінійна регресія

У багатьох практичних задачах залежна змінна пов’язана з впливом не одного, а декількох аргументів. У цьому випадку регресію називають множинною. Якщо аргументи функції регресії мають перший степінь, то множинна регресія називається лінійною, у противному разі — множинною нелінійною регресією.

Лінійна множинна регресія.Лінійне рівняння регресії для n факторів має такий вигляд:

, (5.3)

де – випадкова величина, яка характеризує похибку між даними спостережень і відповідними значеннями, одержаними за допомогою теоретичних розрахунків за формулою (5.3), – параметри, які знаходяться, як і у випадку парної кореляції, методом найменших квадратів.

Як і раніше , – результуюча змінна; – факторні змінні; – вільний член рівняння регресії; – коефіцієнти регресії.

Будуємо квадратичну функцію:

. (5.4)

Ця функція набуває мінімальних значень лише тоді, коли всі частинні похідні за параметрами дорівнюють нулю. Після нескладних перетворень система рівнянь набуває такого вигляду:

(5.5)

Систему рівнянь (5.5) називають нормальною.

Розв’язуючи систему рівнянь (5.5) відносно , одержуємо рівняння прямої лінії.

На практиці часто виникає потреба у знаходженні зв’язку між результуючою змінною і деякою фіксованою факторною змінною , якщо решта факторів є сталими величинами. У загальному випадку цю задачу розв’язати неможливо, оскільки факторних змінних може бути дуже багато. При регресійній моделі з – факторними змінними зв’язок між результуючою ознакою і факторною змінною при деяких фіксованих (наприклад, середніх арифметичних) значеннях решти факторів описується рівнянням часткової регресії:

де ; ,…, , ,…,– середні значення факторних змінних.

Зауважимо, що при переході від множинного рівняння регресії до часткового рівняння регресії фактори можна фіксувати не лише на середніх, але й на інших довільних рівнях. Крім того, на відміну від множинних рівнянь рівняння часткових регресій можна зобразити графіками на площині.

Одночасно з частковою регресією розглядають також часткову кореляцію, яка характеризує зв’язок між результуючою ознакою і деякою факторною змінною при фіксованих (середніх) значеннях інших факторів множинного рівняння регресії.

Приклад. За статистичними даними за 10 років має місце залежність валового випуску продукції підприємства від наявних основних виробничих фондів та оборотних коштів. Скласти рівняння регресії. Дані задаються таблицею:

Роки	1	2	3	4	5	6	7	8	9	10
Валовий випуск (тис. гри.)	425	471	510	565	592	618	615	645	641	554
Основні виробничі фонди (тис. грн.)	320	341	360	389	400	430	444	397	471	320
Оборотні кошти (тис. грн.)	120	137	140	161	180	200	222	217	195	191

Розв’язання. Запишемо рівняння кореляційної залежності у такому вигляді: , де через ми позначили вартість основних виробничих фондів, а – вартість оборотних коштів. Складаємо розрахункову таблицю:

РІК			у
1	320	120	425	102400	38400	14400	136000	51000
2	341	137	471	116281	46717	18769	160601	64527
3	360	140	510	129600	50400	19600	183600	71400
4	389	161	565	151321	62629	25921	219785	90965
5	400	180	592	160000	72000	32400	236800	106560
6	430	200	618	184900	86000	40000	265740	123600
7	444	222	615	197136	98568	49284	273060	136530
8	397	217	645	157609	86149	47089	256065	139965
9	471	195	641	221841	91845	38025	301911	124995
10	320	191	554	102400	61120	36481	177280	105814
Суми	3872	1763	5636	1523488	693828	321969	2210842	1015356

Підставивши обчислені суми в систему рівнянь (5.5), одержуємо систему нормальних рівнянь:

Знайдемо розв’язок цієї системи рівнянь, наприклад, методом Крамера: ; ; . Тоді вибіркове рівняння множинної регресії має вигляд: .

Для знаходження, наприклад, рівняння часткової регресії, яке характеризує зв’язок між валовим випуском і вартістю введених в дію виробничих фондів при деякому постійному (середньому) рівні оборотних коштів , потрібно у множинне рівняння регресії замість фактора , підставити його середнє значення . У результаті одержимо вибіркове рівняння часткової регресії між факторами у і х:

Величина дорівнює теоретичному значенню результуючої ознаки з урахуванням заданої величини першої факторної змінної при закріпленій на середньому рівні факторній змінній .

Коефіцієнт часткової регресії збігається з відповідним коефіцієнтом множинної регресії і має аналогічний економічний зміст. Зокрема, у наведеному прикладі частковий коефіцієнт регресії показує, що збільшення основних фондів на 1 тис. грн. при постійних (середніх) значеннях трудових ресурсів дає приріст валового випуску в середньому на 0,521 тис. грн.

Завдання для самостійної роботи

Задача . За статистичними даними за 10 років (в тис. грн.), які подані в таблиці, побудувати функцію ; оцінити правильність вибору форми функції (валовий випуск продукції Y; основні виробничі фонди X₁; оборотні засоби X₂).

Варіанти:
1				2
Рік	Y	X₁	X₂	Рік	Y	X₁	X₂
1	425	305	92	1	425	435	312
2	471	326	100	2	471	491	335
3	510	348	112	3	510	520	390
4	565	400	128	4	565	565	410
5	592	440	143	5	592	592	430
6	618	520	159	6	618	622	495
7	615	100	125	7	615	615	455
8	645	262	126	8	645	645	543
9	641	236	215	9	641	741	510
10	554	179	435	10	554	554	648

5.4. Нелінійна регресія

Якщо попередній аналіз явищ, зв’язок між якими досліджується, показує, що однаковим змінам середніх значень факторної ознаки відповідають неоднакові зміни середніх значень результативної ознаки, то для вираження загального характеру зв’язку застосовують криволінійні форми кореляційних рівнянь. На практиці найчастіше використовуються такі нелінійні функції залежності: гіперболічна, параболічна другого порядку, напівлогарифмічна та деякі інші.

Статистичний зв’язок між характеристиками виділяють за допомогою такої математичної функції, яка дає найменше відхилення від отриманих зі спостережень значень характеристик. Рівняння таких функцій називаються рівняннями зв’язків між результуючими та фактичними характеристиками.

Вид функції, заданої рівнянням зв’язку, визначає і розмежовує зв’язки за видами їх прояву на лінійні і криволінійні (параболічні, гіперболічні, ступеневі і т.д.)

Рис. 5.7

Якщо результативна ознака при збільшенні факторної ознаки спадає, але не нескінченно, а прямує до певного рівня, то для її аналізу застосовується рівняння гіперболи .

Для знаходження параметрів цього рівняння методом найменших квадратів складають і розв’язують систему рівнянь з двома невідомими:

Коефіцієнт кореляції дозволяє достатньо точно оцінити щільність зв’язку у випадку лінійної залежності між ознаками. При наявності криволінійної залежності для оцінки щільності кореляційного зв’язку потрібно використовувати кореляційне відношення:

. (5.6)

Величина задовольняє нерівності . Якщо = 0, то випадкова величина не знаходиться в кореляційній залежності від X. Тоді як по мірі наближення до 1 щільність зв’язку з X зростає, і при = 1 вона стає функціональною.

Зразки розв’язування задач

Приклад 1. За даними таблиці побудувати рівняння регресії, визначити кореляційне відношення та перевірити його надійність :

х	1,0	2,0	3,0	5,0	10,0
у	7,0	5,0	3,0	2,0	1,5

Розв’язання.

Аналіз даних у таблиці показує, що результативна ознака при збільшенні факторної ознаки спадає, але не нескінченно, а прямує до певного рівня, тому для її аналізу доцільно застосовувати гіперболічну форму залежності. Розрахунки оформимо у вигляді таблиці:

Номер спостере–ження
1	1	7,0	1,00	1,00	7,00	7,22	10,89	3,52	12,39
2	2	5,0	0,50	0,25	2,50	4,17	1,69	0,47	0,22
3	3	3,0	0,33	0,11	1,00	3,09	0,49	– 0,61	0,37
4	5	2,0	0,20	0,04	0,4	2,28	2,89	– 1,42	2,02
5	10	1,5	0,10	0,01	0,15	1,64	4,84	-2,06	4,24
Разом	21	18,5	2,13	1,41	11,05	18,50	20,80	х	19,24

Отже ,

Таким чином, рівняння регресії матиме вигляд: .

Рис. 5.8

На рис. 5.8 побудовано кореляційне поле та теоретичну лінію регресії по .

Середнє значення результативної ознаки: .

Фактичні і теоретичні значення досліджуваних ознак (наведені в таблиці) не дуже відрізняються. Для визначення щільності зв’язку між результативною і факторною ознаками обчислимо кореляційне відношення:

Значення наближене до 1, отже, кореляційне відношення показує, що між ознаками та існує щільна обернена залежність. Надійність показника кореляційного відношення перевіримо за – критерієм Стьюдента. Для цього спочатку визначимо середню похибку кореляційного відношення:

; ,

що свідчить про високу надійність кореляційного відношення (24 > 3,18=).

Парабола другого порядку як форма математичного вираження зв’язків між та застосовується у тих випадках, коли із зростанням факторної ознаки відбувається нерівномірне зростання або спадання результативної ознаки.

При знаходженні рівняння регресії застосовують тип кривої у вигляді параболи другого порядку . Параметри цього рівняння знаходять методом найменших квадратів шляхом складання і розв’язку системи рівнянь:

Приклад 2. За даними таблиці побудувати рівняння регресії, визначити кореляційне відношення та перевірити його надійність:

х	0,0	5,0	10,0	15,0	20,0	25,0	30,0	35,0	40,0	45,0
у	1,2	5,0	7,0	8,0	9,2	9,5	_9,7	9,0	9,8	8,7

Розв’язання. Система рівнянь буде мати вигляд:

Розрахунки оформимо у вигляді таблиці. У результаті розв’язування системи рівнянь одержимо: ; ; Таким чином, рівняння регресії матиме вигляд: .

Номер спостереження	x	у				ху	у
1	0	1,2	0	0	0	0,0	0,0	3,0
2	5	5,0	25	125	625	25,0	125,0	4,7
3	10	7,0	100	1000	10000	70,0	700,0	6,2
4	15	8,0	225	3375	50625	120,0	1800,0	7,4
5	20	9,2	400	8000	160000	184,0	3680,0	8,4
6	25	9,5	625	15625	390625	237,5	5937,5	9,2
7	30	9,7	900	27000	810000	291,0	8730,0	9,6
8	35	9,0	1225	42875	1500625	346,5	12127,5	10,0
9	40	9,8	1600	64000	2560000	392,0	15680,0	9,9
10	45	8,7	2025	91125	4100625	391,5	17617,5	9,6
Разом	225	78,0	7125	253125	9583125	2057,5	66697,5	78,0

Побудуємо кореляційне поле та теоретичну лінію регресії Y по X (рис. 5.9).

Рис. 5.9

Наведемо наступну розрахункову таблицю:

x	0,00	5,00	10,00	15,00	20,00	25,00	30,00	35	40	45	Разом
у	1,20	5,00	7,00	8,00	9,20	9,50	9,70	9,00	9,80	8,70	78,00
	3,00	4,70	6,20	7,40	8,40	9,20	9,60	10,00	9,90	9,60	78,00
	43,56	7,84	0,64	0,04	1,96	2,89	3,61	4,41	4,00	0,81	69,76
	4,80	3,10	1,60	0,40	0,60	1,40	1,80	2,20	2,10	1,80	X
	23,04	9,61	2,56	0,16	0,38	1,96	3,24	2,84	4,51	3,24	53,42

Кореляційне відношення за даними розрахунків дорівнює:

Значення наближене до 1, отже, кореляційне відношення показує, що між ознаками Y та X існує щільна обернена залежність.

Надійність, показника кореляційного відношення перевіримо за – критерієм Стьюдента. Для цього спочатку визначимо середню похибку кореляційного відношення:

; .

Оскільки , залежність між ознаками можна вважати доведеною.

Завдання для самостійної роботи

За даними таблиць побудувати відношення та перевірити його надійність.

Варіант 1			Варіант 2
N	X	Y	N	X	Y
1	3	47	1	5,5	4
2	7	35	2	6	2,8
3	11	20	3	6,5	1,8
4	15	15	4	7	1,2
5	19	12	5	7,5	0,8
6	23	10	6	8	0,5
7	27	9	7	8,5	0,3
8	31	8,2	8	9	0,2
9	35	7,7	9	9,5	0,1
10	39	7,5	10	10	0,1

Варіант 3			Варіант 4
N	X	Y	N	X	Y
1	1	7	1	1	2
2	1,5	12	2	4	12
3	2	16	3	7	20
4	2,5	19	4	10	27
5	3	21	5	13	33
6	3,5	22	6	16	38
7	4	22	7	19	42
8	4,5	21	8	22	45
9	5	20	9	25	43
₁₀	5,5	19	10	27	40

Додаток 1

ТАБЛИЦЯ ЗНАЧЕНЬ ФУНКЦІЇ ЛАПЛАСА

x	Ф(x)	x	Ф(x)	x	Ф(x)	x	Ф(x)
0,00	0,0000	0,26	0,1026	0,52	0,1985	0,78	0,2823
0,01	0,0040	0,27	0,1064	0,53	0,2019	0,79	0,2852
0,02	0,0080	0,28	0,1103	0,54	0,2054	0,80	0,2881
0,03	0,0120	0,29	0,1141	0,55	0,2088	0,81	0,2910
0,04	0,0160	0,30	0,1179	0,56	0,2123	0,820	0,2939
0,05	0,0199	0,31	0,1217	0,57	0,2157	0,83	0,2967
0,06	0,0239	0,32	0,1255	0,58	0,2190	0,84	0,2995
0,07	0,0279	0,33	0,1293	0,59	0,2224	0,85	0,3023
0,08	0,0319	0,34	0,1331	0,60	0,2257	0,86	0,3051
0,09	0,0359	0,35	0,1368	0,61	0,2291	0,87	0,3078
0,10	0,0398	0,36	0,1406	0,62	0,2324	0,88	0,3106
0,11	0,0438	0,37	0,1443	0,63	0,2357	0,89	0,3133
0,12	0,0478	0,38	0,1480	0,64	0,2389	0,90	0,3159
0,13	0,0517	0,39	0,1617	0,65	0,2422	0,91	0,3186
0,14	0,8557	0,40	0,1564	0,66	0,2454	0,92	0,3212
0,15	0,0596	0,41	0,1691	0,67	0,2486	0,93	0,3238
0,16	0,0636	0,42	0,1628	0,68	0,2517	0,94	0,3264
0,17	0,0675	0,43	0,1664	0,69	0,2549	0,95	0,3289
0,18	0,0714	0,44	0,1700	0,70	0,2580	0,96	0,3315
0,19	0,0753	0,45	0,1736	0,71	0,2611	0,97	0,3340
0,20	0,0793	0,46	0,1772	0,72	0,2642	0,98	0,3365
0,21	0,0832	0,47	0,1808	0,73	0,2673	0,99	0,3389
0,22	0,0871	0,48	0,1844	0,74	0,2703	1,00	0,3413
0,23	0,0910	0,49	0,1879	0,75	0,2734	1,01	0,3438
0,24	0,0948	0,50	0,1915	0,76	0,2764	1,02	0,3461
0,25	0,0987	0,51	0,1950	0,77	0,2794	1,03	0,3485
1,04	0,3508	1,33	0,4082	1,62	0,4474	1,91	0,4719
1,05	0,3531	1,34	0,4099	1,63	0,4484	1,92	0,4726
1,06	0,3554	1,35	0,4115	1,64	0,4495	1,93	0,4732
1,07	0,3577	1,36	0,4131	1,65	0,4505	1,94	0,4738
1,08	0,3599	1,37	0,4147	1,66	0,4515	1,95	0,4744
1,09	0,3621	1,38	0,4162	1,67	0,4525	1,96	0,4750
1,10	0,3643	1,39	0,4177	1,68	0,4535	1,97	0,4756
1,11	0,3665	1,40	0,4192	1,69	0,4545	1,98	0,4761
1,12	0,3686	1,41	0,4207	1,70	0,4554	1,99	0,4767
1,13	0,3708	1,42	0,4222	1,71	0,4564	2,00	0,4772
1,14	0,3729	1,43	0,4236	1,72	0,4573	2,02	0,4783
1,15	0,3749	1,44	0,4251	1,73	0,4582	2,04	0,4793
1,16	0,3770	1,45	0,4265	1,74	0,4591	2,06	0,4803
1,17	0,3790	1,46	0,4279	1,75	0,4599	2,08	0,4812

Продовження додатка 1

x	Ф(x)	x	Ф(x)	x	Ф(x)	x	Ф(x)
1,18	0,3810	1,47	0,4292	1,76	0,4608	2,10	0,4821
1,19	0,3830	1,48	0,4306	1,77	0,4616	2,12	0,4830
1,20	0,3849	1,49	0,4319	1,78	0,4625	2,14	0,4838
1,21	0,3869	1,50	0,4332	1,79	0,4633	2,16	0,4846
1,22	0,3883	1,51	0,4345	1,80	0,4641	2,18	0,4854
1,23	0,3907	1,52	0,4357	1,81	0,4649	2,20	0,4861
1,24	0,3925	1,53	0,4370	1,82	0,4656	2,22	0,4868
1,25	0,3944	1,54	0,4382	1,83	0,4664	2,24	0,4875
1,26	0,3962	1,55	0,4394	1,84	0,4671	2,26	0,4881
1,27	0,3980	1,56	0,4406	1,85	0,4678	2,28	0,4887
1,28	0,3997	1,57	0,4418	1,86	0,4686	2,30	0,4893
1,29	0,4015	1,58	0,4429	1,87	0,4693	2,32	0,4898
1,30	0,4032	1,59	0,4441	1,88	0,4699	2,34	0,4904
1,31	0,4049	1,60	0,4452	1,89	0,4706	2,36	0,4909
1,32	0,4066	1,61	0,4463	1,90	0,4713	2,38	0,4913
2,40	0,4918	2,60	0,4953	2,80	0,4974	3,20	0,49931
2,42	0,4922	2,62	0,4956	2,82	0,4976	3,40	0,49966
2,44	0,4927	2,64	0,4959	2,84	0,4977	3,60	0,49984
2,46	0,4931	2,66	0,4961	2,86	0,4979	3,80	0,499928
2,48	0,4934	2,68	0,4963	2,90	0,4981	4,00	0,499968
2,50	0,4938	2,70	0,4965	2,92	0,4982	5,00	0,499997
2,52	0,4941	2,72	0,4967	2,94	0,4984
2,54	0,4945	2,74	0,4969	2,96	0,49846
2,56	0,4948	2,76	0,4971	2,98	0,49856
2,58	0,4951	2,78	0,4973	3,00	0,49865	x > 5	0,5

Додаток 2

ТАБЛИЦЯ ЗНАЧЕНЬ ,
ЩО ЗАДОВОЛЬНЯЮТЬ РІВНІСТЬ

k	p(t)
k	0,1	0,2	0,3	0,4	0,5	0,6	0,7	0,8	0,9	0,95	0,98	0,99	0,999
1	0,158	0,326	0,510	0,727	1,00	1,376	1,963	3,078	6,314	12,706	31,821	63,657	63,662
2	0,142	0,289	0,445	0,617	0,816	1,061	1,336	1,886	2,920	4,303	6,965	9,925	31,598
3	0,137	0,277	0,424	0,584	0,765	0,978	1,250	2,638	2,353	3,182	4,541	5,841	12,941
4	0,134	0,271	0,414	0,569	0,741	0,941	1,190	1,533	2,132	2,776	3,747	4,694	8,610
5	0,132	0,257	0,408	0,559	0,727	0,920	1,156	1,476	2,015	2,571	3,365	4,032	6,859
6	0,131	0,265	0,404	0,553	0,718	0,906	1,134	1,440	1,943	2,447	3,143	3,707	5,959
7	0,130	0,263	0,401	0,549	0,711	0,896	1,119	1,415	1,895	2,365	2,998	3,499	5,405
8	0,130	0,262	0,399	0,546	0,706	0,889	1,108	1,397	1,860	2,306	2,896	3,355	5,041
9	0,129	0,261	0,398	0,543	0,703	0,883	1,100	1,383	1,833	2,262	2,821	3,250	4,781
10	0,129	0,260	0,397	0,542	0,700	0,879	1,093	1,372	1,812	2,228	2,764	3,169	4,587
11	0,129	0,260	0,396	0,540	0,697	0,876	1,086	1,363	1,796	2,201	2,718	3,106	4,487
12	0,128	0,259	0,395	0,539	0,695	0,873	1,083	1,356	1,782	2,179	2,681	3,055	4,318
13	0,128	0,259	0,394	0,538	0,694	0,870	1,079	1,350	1,771	2,160	2,650	3,012	4,221
14	0,128	0,258	0,393	0,537	0,692	0,868	1,076	1,345	1,761	2,145	2,624	2,977	4,140
15	0,128	0,258	0,393	0,536	0,691	0,866	1,074	1,341	1,753	2,131	2,602	2,947	4,073
16	0,128	0,258	0,392	0,535	0,690	0,865	1,071	1,337	1,746	2,120	2,583	2,921	4,015
17	0,128	0,257	0,392	0,534	0,689	0,863	1,069	1,333	1,740	2,110	2,567	2,898	3,965
18	0,127	0,257	0,392	0,534	0,688	0,862	1,067	1,330	1,734	2,103	2,552	2,872	3,922
19	0,127	0,257	0,391	0,533	0,688	0,861	1,066	1,328	1,729	2,093	2,539	2,861	3,883
20	0,127	0,257	0,391	0,533	0,687	0,860	1,064	1,325	1,725	2,086	2,528	2,845	3,850
21	0,127	0,257	0,391	0,532	0,686	0,859	1,063	1,323	1,721	2,080	2,518	2,831	3,819
22	0,127	0,256	0,390	0,532	0,686	0,859	1,061	1,321	1,717	2,074	2,508	2,819	3,792
23	0,127	0,256	0,390	0,532	0,685	0,858	1,060	1,319	1,714	2,069	2,500	2,807	3,767
24	0,127	0,256	0,390	0,531	0,685	0,857	1,059	1,318	1,711	2,064	2,492	2,797	3,745
25	0,127	0,256	0,390	0,531	0,684	0,857	1,058	1,316	1,708	2,060	2,485	2,787	3,725
26	0,127	0,256	0,390	0,531	0,684	0,856	1,058	1,315	1,706	2,056	2,479	2,779	3,707
27	0,127	0,256	0,389	0,531	0,684	0,855	1,057	1,314	1,703	2,052	2,473	2,771	3,690
28	0,127	0,256	0,389	0,530	0,683	0,855	1,056	1,313	1,701	2,048	2,467	2,763	3,674
29	0,127	0,256	0,389	0,530	0,683	0,854	1,055	1,311	1,699	2,045	2,462	2,756	3,659
30	0,127	0,256	0,389	0,530	0,683	0,854	1,055	1,310	1,697	2,042	2,457	2,750	3,646

Додаток 3

ЗНАЧЕННЯ ВЕЛИЧИНИ ЗАЛЕЖНО ВІД ІМОВІРНОСТІ

Число ступенів вільності, k
Число ступенів вільності, k	0,2	0,10	0,05	0,02	0,01	0,005	0,002	0,001
1	1,64	2,7	3,8	5,4	6,6	7,9	9,5	10,83
2	3,22	4,6	6,0	7,8	9,2	11,6	12,4	13,8
3	4,64	6,3	7,8	9,8	11,3	12,8	14,6	16,3
4	6,0	7,8	9,5	11,7	13,3	14,9	16,9	18,5
5	7,3	9,2	11,1	13,4	15,1	16,3	18,9	20,5
6	8,6	10,6	12,6	15,0	16,8	18,6	20,7	22,5
7	9,8	12,0	14,1	16,6	18,5	20,3	22,6	24,3
8	11,0	13,4	15,5	18,2	20,1	21,9	24,3	26,1
9	12,2	14,7	16,9	19,7	21,7	23,6	26,1	27,9
10	13,4	16,0	18,3	21,2	23,2	25,2	27,7	29,6
11	14,6	17,3	19,7	22,6	24,7	26,8	29,4	31,3
12	15,8	18,5	21,0	24,1	26,2	28,3	31,0	32,9
13	17,0	19,8	22,4	25,5	27,7	29,8	32,5	34,5
14	18,2	21,1	23,7	26,9	29,1	31,0	34,0	36,1
15	19,3	22,3	25,0	28,3	30,6	32,5	35,5	37,7
16	20,5	23,5	26,3	29,6	32,0	34,0	37,0	39,2
17	21,6	24,8	27,6	31,0	33,4	35,5	38,5	40,8
18	22,8	26,0	28,9	32,3	34,8	37,0	40,0	42,3
19	23,9	27,3	30,1	33,7	36,2	38,5	41,5	43,8
20	25,0	28,4	31,4	35,0	37,6	40,0	43,0	45,3
21	26,2	29,6	32,7	36,3	38,9	41,5	44,5	46,8
22	27,3	30,8	33,9	38,7	40,3	42,5	46,0	48,3
23	28,4	32,0	35,2	39,0	41,6	44,0	47,5	49,7
24	29,6	33,2	36,4	40,3	43,0	45,5	48,5	51,2
25	30,7	34,4	37,7	41,6	44,3	47,0	50,0	52,6
26	31,8	35,6	38,9	42,9	45,6	48,0	51,5	54,1
27	32,9	36,7	40,1	44,1	47,0	49,5	53,0	55,5
28	34,0	37,9	41,3	45,4	48,3	51,0	54,5	56,9
29	35,1	39,1	42,6	46,7	49,6	52,5	56,0	58,3
30	36,3	40,3	43,8	48,0	50,9	54,0	57,5	59,7

Закінчення додатка 3

ЗНАЧЕННЯ ВЕЛИЧИНИ ЗАЛЕЖНО ВІД ІМОВІРНОСТІ

Число ступенів вільності, k
Число ступенів вільності, k	0,99	0,98	0,95	0,90	0,80	0,70	0,50	0,30
1	0,00016	0,0006	0,0039	0,016	0,064	0,148	0,455	1,07
2	0,020	0,040	0,103	0,211	0,446	0,713	1,386	2,41
3	0,115	0,185	0,352	0,584	1,005	1,424	2,366	3,66
4	0,30	0,43	0,71	1,06	1,65	2,19	3,36	4,9
5	0,55	0,76	1,14	1,61	2,34	3,0	4,35	6,1
6	0,87	1,13	1,63	2,20	3,07	3,83	5,35	7,2
7	1,24	1,56	2,17	2,83	3,82	4,67	6,35	8,4
8	1,65	2,03	2,73	3,49	4,59	5,53	7,34	9,5
9	2,09	2,563	3,32	4,17	5,38	6,39	8,34	10,7
10	2,56	3,06	3,94	4,86	6,18	7,27	9,34	11,8
11	3,1	3,6	4,6	5,6	7,0	8,1	10,3	12,9
12	3,6	4,2	5,2	6,3	7,8	9,0	11,3	14,0
13	4,1	4,8	5,9	7,0	8,6	9,9	12,3	15,1
14	4,7	5,4	6,6	7,8	9,5	10,8	13,3	16,2
15	5,2	6,0	7,3	8,5	10,3	11,7	14,3	17,3
16	5,8	6,6	8,0	9,3	11,2	12,6	15,3	18,4
17	6,4	7,3	8,7	10,1	12,0	13,5	16,3	19,5
18	7,0	7,9	9,4	10,9	12,9	14,4	17,3	20,6
19	7,6	8,6	10,1	11,7	13,7	15,4	18,3	21,7
20	8,3	9,2	10,9	12,4	14,6	16,3	19,3	22,8
21	8,9	9,9	11,6	13,2	15,4	17,2	20,3	23,9
22	9,5	10,6	12,3	14,0	16,3	18,1	21,3	24,9
23	10,2	10,3	13,1	14,8	17,2	19,0	22,3	26,0
24	10,9	12,0	13,8	15,7	18,1	19,9	23,3	27,1
25	11,5	12,7	14,6	16,5	18,9	20,9	24,3	28,1
26	12,2	13,4	15,4	17,3	19,8	21,8	25,3	29,3
27	12,9	14,1	16,2	18,1	20,7	22,7	26,3	30,3
28	13,6	14,8	16,9	18,9	21,6	23,6	27,3	31,4
29	14,3	15,6	17,7	19,8	22,5	24,6	28,3	32,5
30	15,0	16,3	18,5	20,6	23,4	25,5	29,3	33,5

Додаток 4

КРИТИЧНІ ТОЧКИ РОЗПОДІЛУ

Число ступенів вільності, k	Рівень значущості, a
Число ступенів вільності, k	0,01	0,025	0,05	0,95	0,975	0,999
1	6,6	5,0	3,8	0,0039	0,00098	0,00016
2	9,2	7,4	6,0	0,103	0,051	0,020
3	11,3	9,4	7,8	0,352	0,216	0,115
4	13,3	11,1	9,5	0,711	0,484	0,297
5	15,1	12,8	11,1	1,15	0,831	0,554
6	16,8	14,4	12,6	1,64	1,24	0,872
7	18,5	16,0	14,1	2,17	1,69	1,24
8	20,1	17,5	15,5	2,73	2,18	1,65
9	21,7	19,0	16,9	3,33	2,70	2,09
10	23,2	20,5	18,3	3,94	3,25	2,56
11	24,7	21,9	19,7	4,57	3,82	3,05
12	26,2	23,3	21,0	5,23	4,40	3,57
13	27,7	24,7	22,4	5,89	5,01	4,11
14	29,1	26,1	23,7	6,57	5,63	4,66
15	30,6	27,5	25,0	7,26	6,26	5,23
16	32,0	28,8	26,3	7,96	6,91	5,81
17	33,4	30,2	27,6	8,67	7,56	6,41
18	34,8	31,5	28,9	9,39	8,23	7,01
19	36,2	32,9	30,1	10,1	8,91	7,63
20	37,6	34,2	31,4	10,9	9,59	8,26
21	38.9	35,5	32,7	11,6	10,3	8,90
22	40,3	36,8	33,9	12,3	11,0	9,54
23	41,6	38,1	35,2	13,1	11,7	10,2
24	43,0	39,4	36,4	13,8	12,4	10,9
25	44,3	40,6	37,7	14,6	13,1	11,5
26	45,6	41,9	38,9	15,4	13,8	12,2
27	47,0	43,2	40,1	16,2	14,6	12,9
28	48,3	44,5	41,3	16,9	15,3	13,6
29	49,6	45,7	42,6	17,7	16,0	14,3
30	60,9	47,0	43,8	18,5	16,8	15,0

Додаток 5

КРИТИЧНІ ТОЧКИ РОЗПОДІЛУ СТЬЮДЕНТА ( t -РОЗПОДІЛУ)

Число ступенів вільності, k	Рівень значущості, a
Число ступенів вільності, k	0,20	0,10	0,05	0,02	0,01	0,002	0,001
1	3,08	6,31	12,7	31,82	63,66	127,32	636,62
2	1,89	2,92	4,30	6,97	9,93	14,09	31,60
3	1,64	2,35	3,18	4,54	5,84	7,45	12,94
4	1,53	2,13	2,78	3,75	4,60	5,60	8,61
5	1,48	2,02	2,57	3,37	4,03	4,77	6,86
6	1,44	1,94	2,45	3,14	3,71	4,32	5,96
7	1,42	1,90	2,36	3,00	3,50	4,03	5,41
8	1,40	1,86	2,31	2,90	3,36	3,83	5,04
9	1,38	1,83	2,26	2,82	3,25	3,69	4,78
10	1,37	1,81	2,23	2,76	3,17	3,58	4,59
11	1,36	1,80	2,20	2,72	3,11	3,50	4,44
12	1,36	1,78	2,18	2,68	3,05	3,43	4,32
13	1,35	1,77	2,16	2,65	3,01	3,37	4,22
14	1,34	1,76	2,14	2,62	2,98	3,33	4,14
15	1,34	1,75	2,13	2,60	2,95	3,29	4,07
16	1,34	1,75	2,12	2,58	2,92	3,25	4,02
17	1,33	1,74	2,11	2,57	2,90	3,22	3,97
18	1,33	1,73	2,10	2,55	2,88	3,20	3,92
19	1,33	1,73	2,09	2,54	2,86	3,17	3,88
20	1,33	1,73	2,09	2,53	2,85	3,15	3,85
21	1,32	1,72	2,08	2,52	2,83	3,14	3,82
22	1,32	1,72	2,07	2,51	2,82	3,12	3,79
23	1,32	1,71	2,07	2,50	2,81	3,10	3,77
24	1,32	1,71	2,06	2,49	2,80	3,09	3,75
25	1,32	1,71	2,06	2,48	2,79	3,08	3,73
26	1,32	1,71	2,06	2,48	2,78	3,07	3,71
27	1,31	1,70	2,05	2,47	2,77	3,06	3,69
28	1,31	1,70	2,05	2,47	2,76	3,05	3,67
29	1,31	1,70	2,04	2,46	2,76	3,04	3,66
30	1,31	1,70	2,04	2,46	2,75	3,03	3,65
40	1,30	1,68	2,02	2,42	2,70	2,97	3,55
60	1,30	1,67	2,00	2,39	2,66	2,91	3,46
120	1,29	1,66	1,98	2,36	2,62	2,86	3,37
¥	1,28	1,64	1,96	2,33	2,58	2,81	3,29

Додаток 6

КРИТИЧНІ ТОЧКИ РОЗПОДІЛУ ФІШЕРА (F – РОЗПОДІЛУ)

Рівень значущості 0,05
k₁ k₂	1	2	3	4	5	6	12	24	¥
1	164,4	199,5	215,7	224,6	230,2	234,0	244,9	249,0	254,3
2	18,5	9,2	19,2	19,3	19,3	19,3	19,4	19,5	19,5
3	10,1	9,6	9,3	9,1	9,0	8,9	8,7	8,6	8,5
4	7,7	6,9	6,6	6,4	6,3	6,2	5,9	5,8	5,6
5	6,6	5,8	5,4	5,2	5,1	5,0	4,7	4,5	4,4
6	6,0	5,1	4,8	4,5	4,4	4,3	4,0	3,8	3,7
7	5,6	4,7	4,4	4,1	4,0	3,9	3,6	3,4	3,2
8	5,3	4,5	4,1	3,8	3,7	3,6	3,3	3,1	2,9
9	5,1	4,3	3,9	3,6	3,5	3,4	3,1	2,9	2,7
10	5,0	4,1	3,7	3,5	3,3	3,2	2,9	2,7	2,5
11	4,8	4,0	3,6	3,4	3,2	3,1	2,8	2,6	2,4
12	4,8	3,9	3,5	3,3	3,1	3,0	2,7	2,5	2,3
13	4,7	3,8	3,4	3,2	3,0	2,9	2,6	2,4	2,2
14	4,6	3,7	3,3	3,1	3,0	2,9	2,5	2,3	2,1
15	4,5	3,7	3,3	3,1	2,9	2,8	2,5	2,3	2,1
16	4,5	3,6	3,2	3,0	2,9	2,7	2,4	2,2	2,0
17	4,5	3,6	3,2	3,0	2,8	2,7	2,4	2,2	2,0
18	4,4	3,6	3,2	2,9	2,8	2,7	2,3	2,1	1,9
19	4,4	3,5	3,1	2,9	2,7	2,6	2,3	2,1	1,8
20	4,4	3,5	3,1	2,9	2,7	2,6	2,3	2,1	1,8
22	4,3	3,4	3,1	2,8	2,7	2,6	2,2	2,0	1,8
24	4,3	3,4	3,0	2,8	2,6	2,5	2,2	2,0	1,7
26	4,2	3,4	3,0	2,7	2,6	2,4	2,1	1,9	1,7
28	4,2	3,3	2,9	2,7	2,6	2,4	2,1	1,9	1,6
30	4,2	3,3	2,9	2,7	2,5	2,4	2,1	1,9	1,6
40	4,1	3,2	2,9	2,6	2,5	2,3	2,0	1,8	1,5
60	4,0	3,2	2,8	2,5	2,4	2,3	1,9	1,7	1,4
120	3,9	3,1	2,7	2,5	2,3	2,2	1,8	1,6	1,3
¥	3,8	3,0	2,6	2,4	2,2	2,1	1,8	1,5	1,0

Продовження додатка 6

Рівень значущості 0,01
k₁ k₂	1	2	3	4	5	6	8	12	24	¥
1	4052	4999	5403	5625	5764	5859	5981	6106	6234	6366
2	98,5	99,0	99,2	99,3	99,3	99,4	99,3	99,4	99,5	99,5
3	34,1	30,8	29,5	28,7	28,2	27,9	27,5	27,1	26,6	26,1
4	21,2	18,0	16,7	16,0	15,5	15,2	14,8	14,4	13,9	13,5
5	16,3	13,3	12,1	11,4	11,0	10,7	10,3	9,9	9,5	9,0
6	13,7	10,9	9,8	9,2	8,8	8,5	8,1	7,7	7,3	6,9
7	12,3	9,6	8,5	7,9	7,5	7,2	6,8	6,5	6,1	5,7
8	11,3	8,7	7,6	7,0	6,6	6,4	6,0	5,7	5,3	4,9
9	10,6	8,0	7,0	6,4	6,1	5,8	5,5	5,1	4,7	4,3
10	10,0	7,6	6,6	6,0	5,6	5,4	5,1	4,7	4,3	3,9
11	9,7	7,2	6,2	5,7	5,3	5,1	4,7	4,4	4,0	3,6
12	9,3	6,9	6,0	5,4	5,1	4,8	4,5	4,2	3,8	3,4
13	9,1	6,7	5,7	5,2	4,9	4,6	4,3	4,0	3,6	3,2
14	8,9	6,5	5,6	5,0	4,7	4,5	4,1	3,8	3,4	3,0
15	8,7	6,4	5,4	4,9	4,6	4,3	4,0	3,7	3,3	2,9
16	8,5	6,2	5,3	4,8	4,4	4,2	3,9	3,6	3,2	2,8
17	8,4	6,1	5,2	4,7	4,3	4,1	3,8	3,5	3,1	2,7
18	8,3	6,0	5,1	4,6	4,3	4,0	3,7	3,4	3,0	2,6
19	8,2	5,9	5,0	4,5	4,2	3,9	3,6	3,3	2,9	2,4
20	8,1	5,9	4,9	4,4	4,1	3,9	3,6	3,2	2,9	2,4
22	7,9	5,7	4,8	4,3	4,0	3,8	3,5	3,1	2,8	2,3
24	7,8	5,6	4,7	4,2	3,9	3,7	3,3	3,0	2,7	2,2
26	7,7	5,5	4,6	4,1	3,8	3,6	3,3	3,0	2,6	2,1
28	7,6	5,5	4,6	4,1	3,8	3,5	3,2	2,9	2,5	2,1
30	7,6	5,4	4,5	4,0	3,7	3,5	3,2	2,8	2,5	2,0
40	7,3	5,2	4,3	3,8	3,5	3,3	3,0	2,7	2,3	1,8
60	7,1	5,0	4,1	3,7	3,3	3,1	2,8	2,5	2,1	1,6
120	6,9	4,8	4,0	3,5	3,2	3,0	2,7	2,3	2,0	1,4
¥	6,6	4,6	3,8	3,3	3,0	2,8	2,5	2,2	1,8	1,0

Закінчення додатка 6

Рівень значущості 0,001
k₁ k₂	1	2	3	4	5	6	8	12	24	¥
1	Змінюється від 400 000 до 600 000
2	998	999	999	999	999	999	999	999	999	999
3	167	148	141	137	135	133	131	128	126	123
4	74,1	61,3	56,2	53,4	51,7	50,5	49,0	47,4	45,8	44,1
5	47,0	36,6	33,2	31,1	29,8	28,8	27,6	26,4	25,1	23,8
6	35,5	27,0	23,7	21,9	20,8	20,0	19,0	18,0	16,9	15,8
7	29,2	21,7	18,8	17,2	16,2	15,5	14,6	13,7	12,7	11,7
8	25,4	18,5	15,8	14,4	13,5	12,9	12,0	11,2	10,3	9,3
9	22,9	16,4	13,9	12,6	11,7	11,1	10,4	9,6	8,7	7,8
10	21,0	14,9	12,6	11,3	10,5	9,9	9,2	8,5	7,6	6,8
11	19,7	13,8	11 ,6	10,4	9,6	9,1	8,3	7,6	6,9	6,0
12	18,6	13,0	10,8	9,6	8,9	8,4	7,7	7,0	6,3	5,4
13	17,8	12,3	10,2	9,1	8,4	7,9	7,2	6,5	5,8	5,0
14	17,1	11,8	9,7	8,6	7,9	7,4	6,8	6,1	5,4	4,6
15	16,6	11,3	9,3	8,3	7,6	7,1	6,5	5,8	5,1	4,3
16	16,1	11,0	9,0	7,9	7,3	6,8	6,2	5,6	4,9	4,1
17	15,7	10,7	8,7	7,7	7,0	6,6	6,0	5,3	4,6	3,9
18	15.4	10,4	8,5	7,5	6,8	6,4	5,8	5,1	4,5	3,7
19	15,1	10,2	8,3	7,3	6,6	6,2	5,6	5,0	4,3	3,5
20	14,8	10,0	8,1	7,1	6,5	6,0	5,4	4,8	4,2	3,4
22	14,4	9,6	7,8	6,8	6,2	5,8	5,2	4,6	3,9	3,2
24	14,0	9,3	7,6	6,6	6,0	5,6	5,0	4,4	3,7	3,0
26	13,7	9,1	7,4	6,4	5,8	5,4	4,8	4,2	3,6	2,8
28	13,5	8,9	7,2	6,3	5,7	5,2	4,7	4,1	3,5	2,7
30	13,3	8,8	7,1	6,1	5,5	5,1	4,6	4,0	3,4	2,6
40	12,6	8,2	6,6	5,7	5,1	4,7	4,2	3,6	3,0	2,2
60	12,0	7,8	6,2	5,3	4,8	4,4	3,9	3,3	2,7	1,9
120	11,4	7,3	5,8	5,0	4,4	4,0	3,5	3,0	2,4	1,6
¥	10,8	6,9	5,4	4,6	4,1	3,7	3,3	2,7	2,1	1,0

Додаток 7

ТАБЛИЦЯ ЗНАЧЕНЬ

n	g			n	g
n	0,95	0,99	0,999	n	0,95	0,99	0,999
5	1,37	2,67	5,64	20	0,37	0,58	0,88
6	1,09	2,01	3,88	25	0,32	0,49	0,73
7	0,92	1,62	2,98	30	0,28	0,43	0,63
8	0,80	1,38	2,42	35	0,26	0,38	0,56
9	0,71	1,20	2,06	40	0,24	0,35	0,50
10	0,65	1,08	1,80	45	0,22	0,32	0,46
11	0,59	0,98	1,60	50	0,21	0,30	0,43
12	0,55	0,90	1,45	60	0,188	0,269	0,38
13	0,52	0,83	1,33	70	0,174	0,245	0,34
14	0,48	0,78	1,23	80	0,161	0,226	0,31
15	0,46	0,73	1,15	90	0,151	0,211	0,29
16	0,44	0,70	1,07	100	0,143	0,198	0,27
17	0,42	0,66	1,01	150	0,115	0,160	0,211
18	0,40	0,63	0,96	200	0,099	0,136	0,185
19	0,39	0,60	0,92	250	0,089	0,120	0,162

Статистичний критерій.
Емпіричне значення критерію

Спостережуване значення критерію, який позначають через K*, обчислюють за результатом вибірки.

Область прийняття гіпотези.
Критична область. Критична точка

Отже, А — область прийняття Н₀,

— критична область, де Н₀ відхиляється.

Існують три види критичних областей:

Якщо при нульова гіпотеза відхиляється, то в цьому разі маємо правобічну критичну область (рис. 2).

Якщо ж при і при нульова гіпотеза відхиляється, то маємо двобічну критичну область

Рис. 3

Загальний алгоритм перевірки
правильності нульової гіпотези

Для перевірки правильності Н0 задається так званий рівень значущості a.

a — це мала ймовірність, якою наперед задаються. Вона може набувати значення a = 0,005; 0,01; 0,001.

Пропонується такий алгоритм перевірки правильності Н0:

1. Сформулювати Н0 й одночасно альтернативну гіпотезу Нa.

2. Вибрати статистичний критерій, який відповідав би сформульованій нульовій гіпотезі.

нехай , тоді, якщо

, то вибирається правобічна критична область, якщо

, то вибирається лівобічна критична область і коли

, то вибирається двобічна критична область.

5. За результатами вибірки обчислюється спостережуване значення критерію .

6. Відхиляють чи приймають нульову гіпотезу на підставі таких міркувань:

для лівобічної критичної області

;

для правобічної критичної області

;

для двобічної критичної області

або

ураховуючи ту обставину, що критичні точки і симетрично розташовані відносно нуля. відносно нуля.

Помилки першого та другого роду.
Потужність критерію

Якщо Н₀ є правильною, але її відхиляють на основі її перевірки, то буде допущена помилка першого роду.

Якщо Н₀ є неправильною, але її приймають, то в цьому разі буде допущена помилка другого роду.

Між помилками першого і другого роду існує тісний зв’язок.

, .

Тому, коли гіпотеза Н₀є правдивою, . Цей розподіл має такий вигляд (рис. 4, крива f(x; a)).

Рис. 4

За вибраним рівнем значущості a визначається критична область (рис. 4).

Коли , то Н0 відхиляється з імовірністю помилки першого роду:

Коли , то Н0 не відхиляється, хоча може бути правильною альтернативна гіпотеза Нa.

Отже, в цьому разі припускаються помилки другого роду.

Імовірність цієї помилки, яку позначають символом b, може бути визначена на кривій f (x; b), а саме:

Ця ймовірність на рис. 4 показана штрихуванням площі під кривою f(x; b), що міститься ліворуч K_кр.

Різницю називають імовірністю обґрунтованого відхилення Н₀, або потужністю критерію.

Параметричні статистичні гіпотези

Перевірка правильності нульової гіпотези про значення генеральної середньої

При розв’язуванні такого класу задач можливий один із трьох випадків:

2) при — будується правобічна критична область;

2) при — будується лівобічна критична область;

3) при (тобто може бути , або ) — будується двобічна критична область.

, оскільки .

За таблицею значень функції Лапласа, скориставшись значенням , знаходимо аргумент .

Правобічна критична область зображена на рис. 5.

Рис. 5

Для побудови лівобічної критичної області необхідно знайти критичну точку , дотримуючись умови .

у цьому випадку обчислюється з допомогою рівняння

Рис. 6

Для двобічної критичної області необхідно знайти дві критичні точки , за умови

, ,

де .

Отож, нам необхідно обчислити лише , скориставшись рівнянням

де знаходимо за таблицею значень функції Лапласа.

Двобічна критична область зображена на рис. 7.

Рис. 7

У випадку, коли значення є невідомим, його замінюють статистичною оцінкою

1) генеральна сукупність, розподілена за нормальним законом;

2) дисперсії двох нормальних розподілів, рівні між собою.

Нульовою (основною) називають запропоновану гіпотезу, яку ми будемо позначати через .

Альтернативною (конкуруючою) називають гіпотезу , яка суперечить основній.

Розрізняють також гіпотези за кількістю припущень.

Простою називають гіпотезу, яка має одне припущення, інакше гіпотеза є складною.

Наприклад: 1. У законі Пуассона l = 3 – проста гіпотеза;

2. Якщо l > 3, то це складна гіпотеза.

Імовірність здійснити помилку першого роду позначимо через a і будемо називаємо її рівнем значущості.

Статистичним критерієм називають випадкову величину , яка є основою для перевірки нульової гіпотези.

Множину R значень статистичного критерію можна розбити на дві підмножини, що не перетинаються, А і .

За характером критичні області поділяються на односторонні та двосторонні.

Правосторонньою критичною областю називається така область, для якої виконується нерівність (рис. 4.1а).

а б в

Рис. 4.1

Відповідно критична область буде лівосторонньою, якщо виконується нерівність (рис. 4.1б).

Двосторонньою будемо називати критичну область, яка задовольняє нерівності і (рис. 4.1в).

Перевірка статистичних гіпотез будь-якої природи може бути описана за допомогою такої загальної схеми.

1. Формулюється статистична гіпотеза і альтернативна .

2. Вибирається статистичний критерій відповідно до сформульованої нульової гіпотези .

4. Для побудови критичної області необхідно знайти значення критичних точок.

5. За результатами вибірки обчислюється спостережене значення критерію .

, для двосторонньої області .

9. Якщо не потрапляє у критичну область, то нульова гіпотеза приймається.

Залишити відповідь Скасувати коментар

Вторинні форми туберкульозу легень

М’язові тканини

Фізіологія сенсорних систем

Анатомія серця: розташування і будова серця, анатомія камер серця. Велике і мале кола кровообігу. Будова стінки серця, кровопостачання серця. Перикард. Проекція серця на передню стінку грудної порожнини. Грудний відділ аорти: топографія, пристінкові та нутряні гілки. Система верхньої порожнистої вени.

Тубулоінтерстиціальний нефрит та амілоїдоз нирок

Чоловіча статева система. Жіноча статева система: Яєчник.

Приєднуйся до нас!

Підписатись на новини:

Наші соц мережі