09.Статистична перевiрка гiпотез

22 Червня, 2024
0
0
Зміст

СтатистичнА перевірка гіпотез про параметри розподілу ознаки. Перевірка статистичних гіпотез про рівність параметрів розподілу двох сукупностей.

Параметричні і непараметричні статистичні гіпотези

 

Статистичні рішення мають імовірнісний характер, тобто завжди існує ймовірність того, що прийняті рішення будуть помилковими.

Головна цінність прийняття статистичних рішень полягає в тому, що в межах імовірнісних категорій можна об’єктивно виміряти ступінь ризику, що відповідає тому чи іншому рішенню.

Будь-які статистичні висновки, здобуті на підставі обробки вибірки, називають статистичними гіпотезами.

Статистичні гіпотези про значення параметрів ознак генеральної сукупності називають параметричними.

Наприклад, висувається статистична гіпотеза про числові значення генеральної середньої , генеральної дисперсії DГ, генерального середнього квадратичного відхилення sГ та ін.

Статистичні гіпотези, що висуваються на підставі обробки вибірки про закон розподілу ознаки генеральної сукупності, називаються непараметричними.

 Наприклад, на підставі обробки вибірки може бути висунута гіпотеза, що ознака генеральної сукупності має нормальний закон розподілу, експоненціальний закон та ін.

Нульова й альтернативна гіпотези

Гіпотезу, що підлягає перевірці, називають основною. Оскільки ця гіпотеза припускає відсутність систематичних розбіжностей (нульові розбіжності) між невідомим параметром генеральної сукупності і величиною, що одержана внаслідок обробки вибірки, то її називають нульовою гіпотезою і позначають Н0.

Зміст нульової гіпотези записується так:

;

;

.

Кожній нульовій гіпотезі можна протиставити кілька альтернативних (конкуруючих) гіпотез, які позначають символом Нa, що заперечують твердження нульової.

Наприклад, нульова гіпотеза стверджує: , а альтернативна гіпотеза — , тобто заперечує твердження нульової.

 Прості і складні статистичні гіпотези

Проста гіпотеза, як правило, належить до параметра ознак генеральної сукупності і є однозначною.

Наприклад, згідно з простою гіпотезою параметр генеральної сукупності дорівнює конкретному числу, а саме:

;

.

Складна статистична гіпотеза є неоднозначною. Вона може стверджувати, що значення параметра генеральної сукупності належить певній області ймовірних значень, яка може бути дискретною і неперервною.

Наприклад:

   або   .

Нульова гіпотеза може стверджувати як про значення одного параметра генеральної сукупності, так і про значення кількох параметрів, а також про закон розподілу ознаки генеральної сукупності.

 Статистичний критерій.
Емпіричне значення критерію

Для перевірки правильності висунутої статистичної гіпотези вибирають так званий статистичний критерій, керуючись яким відхиляють або не відхиляють нульову гіпотезу. Статистичний критерій, котрий умовно позначають через K, є випадковою величиною, закон розподілу ймовірностей якої нам заздалегідь відомий.

Наприклад, для перевірки правильності  як статистичний критерій K можна взяти випадкову величину, яку позначають через K = Z, що дорівнює

,                                                                      

і яка має нормований нормальний закон розподілу ймовірностей. При великих обсягах вибірки (n > 30) закони розподілу статистич­них критеріїв наближатимуться до нормального.

Спостережуване значення критерію, який позначають через K*, обчислюють за результатом вибірки.

 Область прийняття гіпотези.
Критична область. Критична точка

Множину W всіх можливих значень статистичного критерію K можна поділити на дві підмножини А і , які не перетинаються.

.

Сукупність значень статистичного критерію K Î А, за яких нульова гіпотеза не відхиляється, називають областю прийняття нульової гіпотези.

Сукупність значень статистичного критерію K Î , за яких нульова гіпотеза не приймається, називають критичною областю.

Отже, А — область прийняття Н0,

 — критична область, де Н0 відхиляється.

Точку або кілька точок, що поділяють множину W на підмножини А і , називають критичними і позначають через Kкр.

Існують три види критичних областей:

Якщо при K < Kкр нульова гіпотеза відхиляється, то в цьому разі ми маємо лівобічну критичну область, яку умовно можна зобразити .

Якщо при  нульова гіпотеза відхиляється, то в цьому разі маємо правобічну критичну область (рис. 2).

Якщо ж при  і при  нульова гіпотеза відхиляється, то маємо двобічну критичну область

Рис. 3

Лівобічна і правобічна області визначаються однією критичною точкою, двобічна критична область — двома критичними точками, симетричними відносно нуля.

 Загальний алгоритм перевірки
правильності нульової гіпотези

Для перевірки правильності Н0 задається так званий рівень значущості a.

a — це мала ймовірність, якою наперед задаються. Вона може набувати значення a = 0,005; 0,01; 0,001.

В основу перевірки Н0 покладено принцип , тобто ймовірність того, що статистичний критерій потрапляє в критичну область , дорівнює малій імовірності a. Якщо ж виявиться, що  а ця подія малоймовірна і все ж відбулася, то немає підстав приймати нульову гіпотезу.

Пропонується такий алгоритм перевірки правильності Н0:

1. Сформулювати Н0 й одночасно альтернативну гіпотезу Нa.

2. Вибрати статистичний критерій, який відповідав би сформульованій нульовій гіпотезі.

3. Залежно від змісту нульової та альтернативної гіпотез будується правобічна, лівобічна або двобічна критична область, а саме:

нехай , тоді, якщо

, то вибирається правобічна критична область, якщо

, то вибирається лівобічна критична область і коли

, то вибирається двобічна критична область.

4. Для побудови критичної області (лівобічної, правобічної чи двобічної) необхідно знайти критичні точки. За вибраним статистичним критерієм та рівнем значущості a знаходяться критичні точки.

5. За результатами вибірки обчислюється спостережуване значення критерію .

6. Відхиляють чи приймають нульову гіпотезу на підставі таких міркувань:

у разі, коли , а це є малоймовірною випадковою по-
дією,  і, незважаючи на це, вона відбулася, то в цьому разі Н0 відхиляється:

для лівобічної критичної області

;                                                             

для правобічної критичної області

;                                                             

для двобічної критичної області

                                            

або

,                                          

ураховуючи ту обставину, що критичні точки  і  симетрич­но розташовані відносно нуля. відносно нуля.

Помилки першого та другого роду.
Потужність критерію

Якою б не була малою величина a, потрапляння спостережуваного значення  у критичну область  ніколи не буде подією абсолютно неможливою. Тому не виключається той випадок, коли Н0 буде правильною, а , а тому нульову гіпотезу буде відхилено.

Отже, при перевірці правильності Н0 можуть бути допущені помилки. Розрізняють при цьому помилки першого і другого роду.

Якщо Н0 є правильною, але її відхиляють на основі її перевірки, то буде допущена помилка першого роду.

Якщо Н0 є неправильною, але її приймають, то в цьому разі буде допущена помилка другого роду.

Між помилками першого і другого роду існує тісний зв’язок.

Нехай, для прикладу, перевіряється . При великих обсягах вибірки n , як випадкова величина, закон розподілу ймовірностей якої асимптотично наближатиметься до нормального з числовими характеристиками:

, .

Тому, коли гіпотеза Н0 є правдивою, . Цей розподіл має такий вигляд (рис. 4, крива f (x; a)).

Рис. 4

Коли альтернативна гіпотеза заперечує Н0 і стверджує , то в цьому разі нормальна крива буде зміщена праворуч (на рис. 4 крива f (x; b)).

За вибраним рівнем значущості a визначається критична область (рис. 4).

Коли , то Н0 відхиляється з імовірністю помилки першого роду:

                                              

Коли , то Н0 не відхиляється, хоча може бути правиль­ною альтернативна гіпотеза Нa.

Отже, в цьому разі припускаються помилки другого роду.

Імовірність цієї помилки, яку позначають символом b, може бути визначена на кривій f (x; b), а саме:

.                                                               

Ця ймовірність на рис. 4 показана штрихуванням площі під кривою f (x; b), що міститься ліворуч Kкр.

Якщо з метою зменшення ризику відхилити правильну гіпотезу Н0 зменшуватимемо значення a, то в цьому разі критична точка Kкр зміщуватиметься праворуч, що, у свою чергу, спричинює збільшення ймовірності помилки другого роду, тобто величини b.

Різницю  називають імовірністю обґрунтованого відхилення Н0, або потужністю критерію.

Під час розв’язування практичних завдань може виникнути потреба вибору статистичного критерію з їх певної множини. У цьому разі вибирають той критерій, якому притаманна найбільша потужність.

Параметричні статистичні гіпотези

 Перевірка правильності нульової гіпотези про значення генеральної середньої

Для перевірки правильності , де «а» є певним числом, при заданому рівні значущості a насамперед необхідно вибрати статистичний критерій K.

Найзручнішим критерієм для цього типу задач є випадкова величина K = Z, що має нормований нормальний закон розподілу ймовірностей N(0; 1), а саме:

.                                      

При розв’язуванні такого класу задач можливий один із трьох випадків:

1)              при  — будується правобічна критична область;

2) при  — будується лівобічна критична область;

3) при  (тобто може бути , або ) — будується двобічна критична область.

Лівобічна і правобічна критичні області визначаються однією критичною точкою, двобічна — двома критичними точками, розташованими симетрично щодо нуля (у цьому разі потужність критерію буде максимальною), будуть рівними між собою за модулем і матимуть протилежні знаки.

Для побудови правобічної критичної області необхідно знайти критичну точку  за умови . Значення  обчислюємо з рівняння

.                    


, оскільки .

За таблицею значень функції Лапласа, скориставшись значенням , знаходимо аргумент .

Правобічна критична область зображена на рис. 5.

Рис. 5

Для побудови лівобічної критичної області необхідно знайти критичну точку , дотримуючись умови .

 у цьому випадку обчислюється з допомогою рівняння

.

Враховуючи ту обставину, що функція Лапласа  є непарною, за таблицею значень  знаходимо аргумент  і беремо його із знаком «мінус» . Лівобічна критична область зображена на рис. 6

Рис. 6

Для двобічної критичної області необхідно знайти дві критичні точки ,  за умови

,   ,

де .

Отож, нам необхідно обчислити лише , скориставшись рівнянням

.                    

                 ,

де  знаходимо за таблицею значень функції Лапласа.

Двобічна критична область зображена на рис. 7.

Рис. 7

Розглянутий метод побудови критичних областей придатний лише за умови, коли відоме значення середнього квадратичного відхилення  ознаки генеральної сукупності. При цьому спостережуване значення критерію обчислюється так:

.                                                                   

У випадку, коли значення  є невідомим, його замінюють статистичною оцінкою

.

Тоді за статистичний критерій вибирається випадкова величина K = t, що має розподіл Стьюдента з k = n – 1 ступенями свободи, а саме:

.                                                                     

Критичні точки у цьому разі визначаються за таблицею (додаток 6) заданим рівнем значущості a та числом ступенів свободи k = n – 1. Спостережуване значення критерію обчислюється за формулою

.

 

Правильність вибору закону розподілу чи оцінки його параметрів для генеральної сукупності перевіряється за допомогою статистичних методів перевірки статистичних гіпотез.

Під статистичною гіпотезою будемо розуміти припущення відносно закону розподілу генеральної сукупності чи оцінки його параметрів. Можливі інші гіпотези: про рівність параметрів двох чи декількох розподілів, про незалежність вибірок тощо.

Статистичною називають гіпотезу про вигляд невідомого розподілу або про параметри невідомих розподілів. Наприклад, статистичними є гіпотези:

1) генеральна сукупність, розподілена за нормальним законом;

2) дисперсії двох нормальних розподілів, рівні між собою.

Нульовою (основною) називають запропоновану гіпотезу, яку ми будемо позначати через .

Альтернативною (конкуруючою) називають гіпотезу , яка супе­речить основній.        

Розрізняють також гіпотези за кількістю припущень.

Простою називають гіпотезу, яка має одне припущення, інак­ше гіпотеза є складною.

Наприклад: 1. У законі Пуассона l = 3 – проста гіпотеза;

2. Якщо l  > 3, то це складна гіпотеза.

Висунута гіпотеза може бути правильною або неправильною, тому виникає необхідність її перевірки. Оскільки перевірка проводиться статистичними методами, то її називають статистичною. При прийнятті рішень за допомогою гіпотез можуть статися помилки двох родів.

Помилка першого роду полягає в тому, що буде відкинута правильна гіпотеза, тобто гіпотеза  є правильною, але її відхиляють на основі її перевірки.

Помилка другого роду полягає в тому, що буде прийнята неправильна гіпотеза, тобто гіпотеза  приймається, але в дійсності вірна конкуруюча гіпотеза .

Імовірність здійснити помилку першого роду позначимо через a і будемо називаємо її рівнем значущості.

Число a задають малим і найчастіше використовують значення a, що дорівнюють 0,05; 0,01 і т. д. Якщо, наприклад, a = 0,01, то це означає, що в одному випадку із 100 є ризик допустити помилку пер­шого роду (відкинути гіпотезу ).

Для перевірки гіпотез використовуємо спеціально підібрану ве­личину, точне чи наближене значення якої відоме.

Статистичним критерієм називають випадкову величину , яка є основою для перевірки нульової гіпотези.

Найбільш розповсюдженим критерієм перевірки вірогідності  про закон розподілу ознаки генеральної сукупності є критерій узгодженості , який визначається за формулою .

Тут m – число інтервалів (часткових), на які поділяється статистичний розподіл вибірки;  – частота ознаки в і-у інтервалі;  — теоретичні частоти, підраховані за відповідними формулами закону розподілу ймовірностей, який припускається для ознаки генеральної сукупності.

Теоретичні частоти знаходяться за формулою , де n – об’єм вибірки; – для дискретної випадкової величини є ймовірність події X = хi, для неперервної випадкової величини  є ймовірність того, що ознака X  попаде в і-ий інтервал.

Наприклад, для гіпотези , яка припускає, що ознака генераль­ної сукупності має нормальний закон розподілу, імовірність  може бути обчислена за формулою  , де  – функція Лапласа.

Для перевірки правильності гіпотез, як уже згадувалося, вибирається статистичний критерій, який умовно позначається через , де  – випадкова величина, закон розподілу якої відомий. Для різних гіпотез ці критерії є різними.

Множину R значень статистичного критерію  можна розбити на дві підмножини, що не перетинаються,  А і  .

Значення статистичного критерію підмножини   , при яких нульова гіпотеза приймається, називається областю прийняття гіпотези, а значення, при яких гіпотеза  відхиляється,  критичною областю.

За характером критичні області поділяються на односторонні та двосторонні.

Області А і  (прийняття гіпотез і критичні) між собою розділяються точками, які ми будемо називати критичними і позначати .

Правосторонньою критичною областю називається така об­ласть, для якої виконується нерівність (рис. 4.1а).

 

 

 


    а                               б                                             в

Рис. 4.1

 

Відповідно критична область буде лівосторонньою, якщо виконується нерівність  (рис. 4.1б).

Двосторонньою будемо називати критичну область, яка задовольняє нерівності і  (рис. 4.1в).

У більшості випадків для двосторонньої критичної області точки  і  розташовані симетрично по відношенню до нуля, тобто  .

Перевірка статистичних гіпотез будь-якої природи може бути описана за допомогою такої загальної схеми.

1. Формулюється статистична гіпотеза  і альтернативна .

2. Вибирається статистичний критерій відповідно до сформульованої нульової гіпотези .

3. Залежно від змісту нульової  і альтернативної  гіпотез вибирається одностороння або двостороння критична область.

4. Для побудови критичної області необхідно знайти значення критичних точок.

В основі побудови критичної області покладено принцип практичної неможливості здійснитися малоймовірній випадковій події при одній спробі. За вибраним статистичним критерієм  та рівнем значущості  з допомогою спеціальних таблиць визначається критична точка . Згідно знайденого  відповідно будується лівостороння, правостороння або двостороння критична область.

5. За результатами вибірки обчислюється спостережене значення кри­терію .

6. Приймається рішення прийняти чи відхилити нульову гіпотезу  на підставі таких міркувань: якщо гіпотеза  правильна, то , тобто ймовірність того, що статистичний критерій потрапляє в критичну область , дорівнює малій ймовірності . Якщо  потрапляє в критичну область , а ця подія малоймовірна і все ж відбулася, то в цьому разі  відхилити.

7. Це твердження має наступний вигляд для різних типів областей: для лівосторонньої критичної області: , для правосторонньої

, для двосторонньої області .

8. Враховуючи ту обставину, що критичні точки  і  розташовані симетрично відносно нуля, двосторонню критичну область будують також симетричною, отже .

9. Якщо  не потрапляє у критичну область, то нульова гіпотеза  приймається.

 

4.2. Перевірка правильності нульової гіпотези про рівність двох дисперсій

Одним із важливих завдань математичної статистики є порівняння двох або кількох вибіркових дисперсій. Таке порівняння дає можливість визначити, чи можна вважати вибіркові дисперсії статистичними оцінками однієї і тієї самої дисперсії генеральної сукупності. Воно застосовується передусім при обчисленні дисперсій за результатами технологічних вимірювань.

Порівняння дисперсій  здійснюється зіставленням виправлених дисперсій , , які відповідно мають закон розподілу  із ,  ступенями вільності, де  і  є обсяги першої і другої вибірок.

Нехай перша вибірка здійснена з генеральної сукупності з ознакою Y, дисперсія якої дорівнює , друга –– з генеральної сукупності з ознакою Х, дисперсія якої дорівнює . Необхідно перевірити правильність нульової гіпотези  .

За статистичний критерій береться випадкова величина , яка має розподіл Фішера – Снедекора із  i  ступенями вільності, де  є більшою з виправлених дисперсій, одержаною внаслідок обробки результатів вибірок,  є меншою з виправлених дисперсій.

Щільність ймовірностей розподілу ФішераСнедекора

визначена лише на додатній півосі, тобто .

Спостережуване значення критерію

                                              .                                                           (4.1)

 

Зразки розв’язування задач

 

Приклад 1. Під час дослідження стабільності температури в термостаті дістали такі результати: 21,2; 21,8; 21,3; 21,0; 21,4; 21,3.

З метою стабілізації температури було використано удосконалений пристрій, після цього заміри температури показали такі результати: 37,7; 37,6; 37,6; 37,4. Чи можна вважати використання удосконаленого пристрою до стабілізатора температури ефективним, якщо рівень значущості a = 0,01?

 

Розв’язання. Очевидно, що ефективність стабілізаторів без удоскона­леного пристрою і з ним залежить від дисперсій вимірюваних ними темпе­ратур. Отже, задача звелась до порівняння двох дисперсій.

Обчислимо виправлені вибіркові дисперсії:

 

;

 

;

 

;

 

;

 

;

 

;

 

;

 

.

 

Обчислимо спостережуване значення критерію:

 

.

 

Число ступенів вільності для більшої виправленої дисперсії,

, для меншої , .

Оскільки удосконалення стабілізатора температур може тільки зменшити дисперсію, то будуємо правобічну критичну область. Отже, .

Критичну точку знаходимо за таблицею (додаток 6) відповідно до заданого рівня значущості a = 0,01 і числа ступенів вільності = 5, = 3, .

Висновок. Оскільки , дані спостережень не дають підстав відхилити нульову гіпотезу, тобто вдосконалення термостабілізатора є ефективним.

 

Приклад 2. За заданими статистичними розподілами вибірок, які реалізовано з генеральних сукупностей, ознаки яких Х і Y є незалежними і мають нормальний закон розподілу,

 

yi

1,2

2,2

3,2

4,2

5,2

1

2

4

2

3

 

xj

0,8

1,6

2,4

3,2

4

2

6

1

1

2

 

при рівні значущості a = 0,01 перевірити правильність нульової гіпотези , якщо альтернативна гіпотеза .

Розв’язання. Обчислимо значення :

 

;

 

;

 

;

;

 

;

 

;

 

;

 

.

 

Обчислимо спостережуване значення критерію

 

.

 

Для альтернативної гіпотези  будуємо правобічну критичну область. Знайдемо за таблицею (додаток 6) критичну точку

 

Висновок. Оскільки , нульова гіпотеза  є правильною.

 

Завдання для самостійної роботи

 

1. Норма витрат на технічне обслуговування і ремонт нових марок тракторів вимірювалась у двох сільських господарствах району. Результати вимірювань показано двома статистичними розподілами:

 

yi,
грн/га

0,58

0,6

0,62

0,64

0,66

 

xj,
грн/га

0,56

0,6

0,64

0,7

0,74

2

3

10

4

1

 

4

6

3

2

1

 

Ознаки Х і Y (норми витрат) є незалежними випадковими величинами, що мають нормальний закон розподілу. При рівні значущості a = 0,001 перевірити правильність нульової гіпотези

, якщо альтернативна гіпотеза

.

Відповідь: ; ; ;  відхиляється.

 

2. Визначалися річні середні витрати електроенергії на комунально-побутові вимоги для одного мешканця у двох містах. Результати розрахунків подано двома статистичними розподілами для першого і другого міст:

 

yi, Вт/м.

700

708

716

724

732

740

 

xj, Вт/м.

706

710

714

718

722

726

730

5

6

9

6

3

1

 

8

10

12

5

2

2

1

 

Ознаки Х і Y (річні витрати в кВт/особу) є незалежними між собою і мають нормальний закон розподілу. При рівні значущості a = 0,001 перевірити правильність нульової гіпотези.

 

, якщо альтернативна гіпотеза;

.

Відповідь: ; ; ;  не відхиляється.

 

4.3. Критерій перевірки гіпотези про вигляд
 невідомого закону розподілу

Критерієм згоди називають критерій перевірки гіпотези про вигляд невідомого закону розподілу

Є декілька критеріїв згоди:  («хі квадрат») Пірсона, Колмогорова, Смірнова і т.д. Для простоти обмежимося лише описом застосування критерію Пірсона для перевірки гіпотези про нормальний розподіл генеральної сукупності, оскільки інші закони перевіряються аналогічно.

Для перевірки критерію згоди за конкретними формулами порівнюємо емпіричні частоти (за даними вибірки)  і теоретичні –  (обчислені в припущенні, що закон розподілу генеральної сукупності завдань, наприклад, у нашому випадку – нормальний).

В основі критерію згоди Пірсона покладена критеріальна статистика, що має вигляд:

                                           .                                          (4.2)

 

Чим менше відрізняються значення емпіричних і теоретичних частот, тим меншим буде значення  і, отже, більш точно характеризує близькість теоретичного і емпіричного розподілів.

Значення критичної точки для критерію згоди Пірсона залежить від рівня значущості  і числа ступенів вільності .

Число ступенів вільності розподілу визначається за формулою  , де – число інтервалів статистичного ряду,  r – число параметрів закону теоретичного розподілу, що оцінюється за даними вибірки (для нормального закону , оскільки цей закон виконується двома параметрами  і ).

 

Зразки розв’язування задач

Приклад 1. При рівні значущості 0,01 перевірити гіпотезу про нормальний розподіл генеральної сукупності, якщо емпіричні і теоретичні частоти задаються наступною таблицею:

емпіричні частоти ()

4

4

10

10

13

16

теоретичні частоти ()

6

8

11

12

10

10

 

 

 

 

Розв’язання. Складемо таблицю:

1

4

6

-2

4

0,67

2

4

8

-4

16

2

3

10

11

-1

1

0,09

4

10

12

-2

4

0,33

5

13

10

3

9

0,9

6

16

10

6

36

3,6

Сума

57

57

 

 

7,59

 

 

 

 

 

 

 

 

 

Отже,  .

Число ступенів вільності в нашому прикладі . За таблицею критичних точок розподілу  (додаток 4) при значеннях  і  знаходимо   .

Оскільки  , а критична область правостороння, то немає підстави для відхилення нульової гіпотези. Іншими словами, розбіжність між теоретичними і емпіричними частотами незначна, тому дані спостережень узгоджуються з гіпотезою про нормальний закон розподілу генеральної сукупності.

 

Приклад 2. Вимірювання зросту юнаків віком 17 років дав такі результати:

 

,

154158

158162

162166

166170

170174

174178

178182

182186

ni

8

14

20

32

12

8

4

2

 

Визначити гіпотетично, який закон розподілу має ознака Х  – зріст юнака. При рівні значущості a = 0,01 перевірити правильність висунутої нульової гіпотези.

Розв’язання. Для заданого статистичного розподілу побудуємо гістограму частот (рис. 4.2).

Рис. 4.2

За формою гістограми частот можемо припустити, що ознака Х має нормальний закон розподілу. Отже, висуваємо нульову гіпотезу Н0: ознака Х має нормальний закон розподілу ймовірностей. Для перевірки правильності Н0 використаємо критерій узгодженості Пірсона.

xi

156

160

164

168

172

176

180

184

ni

8

14

20

32

12

8

4

2

Необхідно обчислити теоретичні частоти, для цього знайдемо значення , побудувавши дискретний розподіл за заданим інтервальним:

 

 

 cм;

 

 

см.

 

          Обчислення теоретичних частот наведено в таблиці:

 

xi

xi+1

ni

154

158

8

– 2,04

– 1,42

– 0,4793

– 0,4222

6

158

162

14

– 1,42

– 0,79

– 0,4222

– 0,2852

14

162

166

20

– 0,79

– 0,16

– 0,2852

– 0,0636

22

166

170

32

– 0,16

0,464

– 0,0636

0,1772

24

170

174

12

0,464

1,09

0,1772

0,3621

19

174

178

8

1,09

1,72

0,3621

0,4573

10

178

182

4

1,72

2,34

0,4573

0,4904

3

182

186

2

2,34

2,97

0,4904

0,4986

1

 

          Обчислення спостережуваного значення  наведено в таблиці:

 

і

ni

npi

ni – npi

(ni – npi)2

1

8

6

2

4

0,667

2

14

14

0

0

0

3

20

22

2

4

0,182

4

32

24

8

64

2,667

5

12

19

7

49

2,579

6

8

10

2

4

0,4

7

4

3

1

1

0,333

8

2

1

1

1

1

               .

За таблицею (додаток 4) знаходимо значення

Висновок. Оскільки , немає підстав для відхилення нульової гіпотези Н0 про нормальний закон розподілу ймовірностей ознаки Х.

 

Приклад 3. За заданим статистичним розподілом вибірки:

 

010

1020

2030

3040

4050

ni

40

30

20

6

4

 

з’ясувати гіпотетично закон розподілу ймовірностей випадкової величини Х. При рівні значущості a = 0,01 перевірити правильність цього припущення.

Розв’язання. Для визначення закону розподілу ознаки Х побудуємо гістограму частот (рис. 4.3).

За формою гістограми частот можна гіпотетично стверджувати, що ознака Х має експоненціальний закон розподілу ймовірностей.

Для перевірки правильності цього твердження використаємо критерій узгодженості Пірсона. Теоретичні частоти в цьому разі обчислюються за формулою:   ,        де .

Рис. 4.3

Отже, необхідно обчислити , побудувавши дискретний статистичний розподіл за наведеним інтервальним, а саме:

 

xi

5

15

25

35

45

ni

40

30

20

6

4

 

Оскільки , то


.
    Тоді .

Обчислення теоретичних частот наведено в таблиці:

 

xi

xi+1

ni

0

10

40

1

0,522

48

10

20

30

0,522

0,273

25

20

30

20

0,273

0,142

13

30

40

6

0,142

0,074

7

40

50

4

0,074

0,0039

7

Обчислення спостережуваного значення критерію  наведено в таблиці:

 

ni

npi

ni – npi

(ni – npi)2

40

48

8

64

1,33

30

25

5

25

1

20

13

7

49

3,77

6

7

– 1

1

0,14

4

7

– 3

9

1,29

.

За таблицею (додаток 4) знаходимо значення критичної точки

.

Висновок. Оскільки , нульова гіпотеза про експоненціальний закон розподілу ознаки Х приймається.

 

Завдання для самостійної роботи

За заданими статистичними розподілами вибірки висунути Н0 про закон розподілу ознаки генеральної сукупності і при рівні значущості a = 0,01 перевірити її правильність:

1. Результати вимірювання граничного навантаження на сталевий болт наведено інтервальним статистичним розподілом:

 

xi, кг/мм2,

 h = 1

4,5–5,5

5,5–6,5

6,5–7,5

7,5–8,5

8,5–9,5

9,5–10,5

10,5–11,5

11,5–12,5

12,5–13,5

ni

40

32

28

24

20

18

16

12

4

 

2. Вимірювався вміст фосфору в чавуні. Результати вимірювання наведено у вигляді інтервального статистичного розподілу:

 

xi, %,

 h = 0,02

0,360,38

0,380,4

0,40,42

0,420,44

0,440,46

0,460,48

0,480,5

0,50,52

ni

10

16

24

40

32

20

16

5

 

 

4.4. Перевірка гіпотези про значущість вибіркового коефіцієнта кореляції

 

Нехай двомірна генеральна сукупність  розподілена нормально. З цієї сукупності вилучена вибірка об’ємом  і обчислений вибірковий коефіцієнт кореляції , який є відмінним від нуля. Так як вибірка обрана випадково, то ще неможливо стверджувати, що коефіцієнт кореляції генеральної сукупності  також відмінний від нуля. Оскільки нас цікавить саме цей коефіцієнт, виникає необхідність при заданому рівні значущості  перевірити нульову гіпотезу :  – про рівність нулю генерального коефіцієнта кореляції при конкуруючій гіпотезі : .

Якщо нульову гіпотезу буде відкинуто, то це означає, що вибірковий коефіцієнт кореляції значущо відрізняється від нуля (коротко кажучи, значно), а  та  корельовані, тобто пов’язані лінійною залежністю.

Якщо нульову гіпотезу буде прийнято, то вибірковий коефіцієнт кореляції незначущий, а  та  некорельовані, тобто не пов’язані лінійною залежністю.

Правило. Для того, щоб за заданим рівнем значущості  перевірити нульову гіпотезу : , про рівність нулю генерального коефіцієнта кореляції нормальної двомірної випадкової величини при конкуруючій гіпотезі : , необхідно обчислити спостережуване значення критерія:

.

Далі за таблицею критичних точок розподілу Стьюдента (додаток 5), за даним рівнем значущості і числом ступенів вільності  необхідно знайти критичну точку  для двосторонньої критичної області.

Якщо  – немає сенсу відкидати нульову гіпотезу.

Якщо  –нульову гіпотезу відкидаємо.

Приклад . За вибіркою об’ємом , вилученої із нормальної двовимірної сукупності, знайдено вибірковий коефіцієнт кореляції . За рівнем значущості  перевіримо нульову гіпотезу про рівність нулю генерального коефіцієнта кореляції при альтернативній гіпотезі : .

Розв’язання. Знайдемо спостережуване значення критерію: .

За умовою альтернативна гіпотеза має вигляд , тому критична область – двостороння.

За рівнем значущості  і числом ступенів вільності  знаходимо за таблицею 5 для двосторонньої критичної області критичну точку .

Оскільки  – нульову гіпотезу відкидаємо. Іншими словами, вибірковий коефіцієнт кореляції значно відрізняється від нуля, тобто  та  корельовані.

 

Завдання для самостійної роботи

1. За вибіркою об’ємом , вилученої із нормальної двовимірної генеральної сукупності , знайдено вибірковий коефіцієнт кореляції . Необхідно за рівнем значущості  перевірити нульову гіпотезу про рівність нулю генерального коефіцієнта кореляції при альтернативній гіпотезі : .

Відповідь: ; ; . Немає підстав відкидати нульову гіпотезу;  та  некорельовані випадкові величини.

 

2. За вибіркою об’ємом , вилученої із нормальної двовимірної генеральної сукупності , знайдено вибірковий коефіцієнт кореляції . За рівнем значущості  перевірити нульову гіпотезу про рівність нулю генерального коефіцієнта кореляції при конкуруючій гіпотезі : .

Відповідь: ; ; . Нульова гіпотеза відкидається;  та  – корельовані випадкові величини.


Розділ  5

Елементи кореляційного та регресійного аналізу

5.1.   Загальна інформація

При сумісній появі двох і більше величин у результаті проведення експерименту дослідник має підстави для встановлення певної залежності між ними, зв’язку.

Строгої функціональної залежності між змінними, у буквальному розумінні цього слова, у реальному світі не існує, бо вони перебувають під впливом випадкових факторів, наслідки якого передбачити практично неможливо. Тому між змінними існує особлива форма зв’язку, яку називають стохастичною і яка в математичній статистиці трансформується, не змінюючи своєї сутності, у статистичну залежність.

Показником, що вимірює стохастичний зв’язок між змінними, є коефіцієнт кореляції, який свідчить з певною мірою ймовірності, наскільки зв’язок між змінними близький до строгої лінійної залежності.

Значно збільшується цінність коефіцієнта кореляції для випадкових змінних, що мають закон розподілу ймовірностей, близький до нормального. Для таких величин відсутність кореляції одночасно означає і відсутність будь-якої залежності між ними.

За наявності кореляційного зв’язку між змінними необхідно виявити його форму функціональної залежності (лінійна чи нелінійна), а саме:

 . 

Наведені можливі залежності між змінними X і Y називають функціями регресії. Форму зв’язку між змінними X і Y можна встановити, застосовуючи кореляційні поля, які зображені на рисунках 5.1–5.3.

 

 Рис. 5.1

 

Рис. 5.2

Рис. 5.3

Тут кожній точці з координатами xi, yi відповідає певне числове значення ознак X та Y.

Коли зв’язок між ознаками лінійний, використовують лінійний коефіцієнт кореляції. Його розраховують за формулою:

 .

Він приймає значення від –1 до 1 і характеризує не тільки щільність зв’язку, а і його напрям. Чим ближче  до 1, тим тісніше лінійний кореляційний зв’язок. Додатне значення означає прямий зв’язок між ознаками, а від’ємне – зворотний. Щільність зв’язку приблизно можна оцінити так:

                                                 для  – слабка,

                                                 для  – середня,

                                                 для  – цільна.

На рис. 5.1 більшість точок утворюють множину, що має тенденцію при збільшенні значень X зумовлювати збільшення значень ознаки Y  ( коефіцієнт кореляції більше 0 ). На рис. 5.2 множина точок має тенденцію при збільшенні значень Х зумовлювати зменшення Y ( коефіцієнт кореляції менше 0 ). На
рис. 5.3 точки рівномірно розміщені на координатній площині хОy, що свідчить про відсутність кореляційної залежності між ознаками Х і Y.

Отже, на основі розміщення точок дослідник має підстави для гіпотетичного припущення про лінійні чи нелінійні залежності між ознаками Х і Y. Для двовимірного статистичного розподілу вибірки ознак (Х, Y) поняття статистичної залежності між ознаками Х та Y має таке визначення.

Статистичною залежністю Х від Y називають таку, за якої при зміні значень ознаки Y = yi змінюється умовний статистичний розподіл ознаки Х, статистичною залежністю ознаки Y від Х називають таку, за якої зі зміною значень ознаки X = xi змінюється умовний статистичний розподіл ознаки Y.

У разі зміни умовних статистичних розподілів змінюватимуться і умовні числові характеристики. Звідси випливає визначення кореляційної залежності між ознаками X і Y.

Кореляційною залежністю ознаки Y від X називається функціональна залежність умовного середнього  від аргументу х, що можна записати так:

.

Аналогічно кореляційною залежністю ознаки X від Y називається функціональна залежність умовного середнього  від аргументу y, що можна записати так:

                                                 .

Між ознаками Х та Y може існувати статистична залежність і за відсутності кореляційної. Але коли існує кореляційна залежність між ознаками Х та Y, то обов’язково між ними існуватиме і статистична залежність.

Кореляційно – регресійний аналіз  складається з таких етапів:

     – вибір форми регресії;

     – визначення параметрів рівняння;

     – оцінка тісноти зв’язку;

     – перевірка істотності зв’язку.

При виборі функції використовують графіки,  аналітичні групування, теоретичне обґрунтування. Можливий перебір функцій, коли обчислюють різні рівняння регресії та обирають найкраще.

Визначення параметрів рівняння регресії проводиться методом  найменших квадратів, основою якого є мінімізація суми квадратів відхилень емпіричних значень від теоретичних:  

                                

Найбільш поширена у статистичному аналізі лінійна функція.

5. 2.  Рівняння лінійної парної регресії

Нехай між змінними Х та Y теоретично існує певна лінійна залежність. Це твердження може ґрунтуватися на тій підставі, наприклад, що кореляційне поле для пар  має такий вигляд (рис. 5.4). Як бачимо, насправді між ознаками Х і Y спостерігається не такий тісний зв’язок, як це передбачає функціональна залежність.

Рис. 5.4

Рівняння лінійної парної регресії набере такого вигляду:

                                                                            (5.1)

або

,                                                                                (5.2)

де  – коефіцієнт регресії rxy —парний коефіцієнт кореляції між ознаками X і Y.

Показники кореляції часто розраховуються за даними вибірки, тому одержані показники не є точними оцінками показників кореляції в генеральній сукупності. Необхідно визначити точність оцінки показників кореляції та перевірити їх істотність.

При великому обсязі вибірки з нормально розподіленої сукупності, якщо вели­чина лінійного коефіцієнта кореляції перевищує величину середньої квад­ра­тичної похибки  більш ніж у  разів, а нульова гіпотеза  – лінійний коефіцієнт кореляції дорівнює нулю, то вибірковий коефіцієнт кореляції можна вважати істотним (нульова гіпотеза не підтверджується). Тут  – рівень значущості, його найчастіше обирають рівним 0,05 або 0,01; r – значення лінійного коефіцієнта кореляції за даними вибірки; n – обсяг вибірки. Якщо ж відношення  виявиться меншим за , то з імовірністю (1–) треба вважати кореляційний зв’язок у генеральній сукупності відсутнім. Значення  в цьому випадку для  = 0,95 дорівнює 1,96, а для = 0,99 дорівнює 2,58, тобто з імо­вірністю 0,99 можна стверджувати, що коефіцієнт кореляції генеральної сукупності знаходиться в інтервалі .

Для малого обсягу вибірки розрахункове значення параметра порівнюють з табличним значенням  за таблицею закону розподілу Стьюдента з (n 2) ступенями вільності. Якщо розрахункове значення  перевищує табличне, то з імовірністю (1 – ) коефіцієнт кореляції можна вважати істотним, тобто гіпотезу про відсутність кореляційного зв’язку між випадковими величинами (X, Y) слід відкинути і прийняти альтернативну гіпотезу про наявність залежності між цими випадковими величинами.

Лінійна регресійна модель називається адекватною, якщо обчислені за рівнянням регресії значення  погоджуються з результатами спостережень.

Перевірку істотності зв’язку здійснюють за допомогою F критерію Фішера:  , де m число параметрів рівняння регресії.

За рівнем значущості , числами  та  за таблицями F – розподілу Фішера (додаток 6) знаходять критичне значення  і, якщо , нульову гіпотезу спростовують, зв’язок вважають істотним, а рівняння – значущим.

Інколи використовують спрощений метод перевірки значущості коефіцієнта кореляції: якщо , то зв’язок між випадковими величинами  та  досить ймовірний

 

Зразки розв’язування задач

Приклад 1. Залежність розчинності  тіосульфату від температури хі наведено парним статистичним розподілом вибірки:

 

Y = yi

33,5

37,0

41,2

46,1

50,0

52,9

56,8

64,3

69,9

X = xi

0

10

20

30

40

50

60

70

80

 

Потрібно:

1) побудувати кореляційне поле залежності ознаки Y від X;

2) обчислити rxy ;

3) побудувати графік лінії регресії.

Розв’язання. 1) Кореляційне поле залежності ознаки Y від X має такий вигляд (рис. 5.5).

Рис. 5.5

 

Очевидно (рис. 5.5), що із збільшенням значень ознаки  залежна зміна  має тенденцію до збільшення.

2) Для обчислення rxy складемо таблицю:

№ з/п

хі

уі

хі уі

1

0

33,5

0

0

1122,25

2

10

37,0

100

307

1369,00

3

20

41,2

400

824

1697,44

4

30

46,1

900

1383

2125,21

5

40

50,0

1000

2000

2500,00

6

50

52,9

2500

2645

2798,41

7

60

56,8

3600

3408

3226,24

8

70

64,3

4900

4501

4134,49

9

80

69,9

6400

5592

4886,01

Σ

360

451,7

20400

20723

23859,05

Оскільки  n = 9,    

    

    .

Для обчислення  необхідно знайти   

;

;

Отже, рівняння регресії буде таким:

              

Як бачимо, коефіцієнт кореляції близький за своїм значенням до одиниці, що свідчить про те, що залежність між Х та Y є практично лінійною.

Перевіримо гіпотезу про значущість коефіцієнта регресії, яка складається у виконанні ознаки Стьюдента   , де значення  знаходять з таблиці розподілу Стьюдента (додаток 5).

Обчислимо t за формулою:   t = =. При заданій довірчій ймовірності =0,95  і  k=7  t0,05;7 = 2,36. Отже, нерівність виконана, оскільки  t= 26,49> 2,36. Лінійна регресія описує нашу залежність, форма зв’язку між ознаками Х і Y є лінійною.

3) Графік парної лінійної функції регресії подано на рис. 5.6.

Рис. 5.6

Приклад 2. Кореляційна таблиця має вигляд:

 

        Y

Х

4

9

14

19

24

29

130

3

3

140

5

4

150

40

2

8

160

5

10

6

170

4

7

3

 

Знайти  рівняння регресії Y на X та рівняння регресії X на Y.

Розв’язання. 1. Знайдемо суми частот nx за рядками і ny за стовпцями.

 

         Y

Х

4

9

14

19

24

29

130

3

3

6

140

5

4

9

150

40

2

8

50

160

5

10

6

21

170

4

7

3

14

3

8

49

16

21

3

100

 

Обчислимо середні  і :

.

.

2. Обчислимо дисперсії:

.

.

3. Щоб обчислити коефіцієнт кореляції rxy, спочатку знайдемо момент кореляції:

.

Тоді коефіцієнт кореляції:

 =  = 0,764.

4. Рівняння регресії Y на X:

, ,

 = 0,412 x  46,281,

та рівняння регресії X на Y:

,  = 1,417 y + 129,203.

Перевіримо гіпотезу про значущість коефіцієнта регресії за однією з двох ознак:

а) повинна виконуватися нерівність:

,     0,764 = 7,6 > 3,

отже, лінійна регресія описує задану залежність.

б) повинна виконуватися ознака Стьюдента:

 ,     t = ,

де значення  знаходять з таблиці розподілу Стьюдента (число ступенів вільності k= n2, рівень значущості , де   довірча ймовірність).

У нашому випадку t = 11,72. При заданій довірчій ймовірності =0,95, k=98, =1,99  виходить, що  нерівність виконана, тому що  t =11,72 > 1,99

Лінійна регресія описує задану залежність.

 

Завдання для самостійної роботи

В задачах 1–3 виконати наступні вправи:

1) побудувати кореляційне поле залежності ознаки Y від X;

2) обчислити rxy ;

3) побудувати графік лінії регресії.

 

1. Залежність вмісту срібла в руді Y від вмісту свинцю наведено в таблиці:

 

Y = yi, %

2

6

10

14

18

22

26

30

X = xi, %

2,5

7,5

12,5

17,5

22,5

27,5

32,5

37,5

 

2. Залежність пружності Y сталевих болтів від вмісту в них нікелю Х наведена в таблиці:

 

Y = yi, %

35,4

35,0

35,8

36,2

36,7

36,9

37,3

37,8

38,2

X = xi , %

2,20

2,35

2,42

2,58

2,65

2,69

2,74

2,88

2,91

Y = yi, %

39,1

40,5

42,4

43,8

45,6

46,9

48,5

49,4

50,0

X = xi , %

2,95

2,99

3,00

3,11

3,21

3,29

3,34

3,44

3,50

 

3. Результати порівняння нового методу газового аналізу Y зі старим Х наведено в таблиці:

 

Y = yi, умов. од.

2,88

2,91

2,92

2,96

3,01

3,11

3,21

3,25

X = xi, умов. од.

2,07

2,12

2,11

2,58

2,89

2,92

3,01

3,12

.

Y = yi, умов. од.

3,32

3,36

3,42

3,46

3,58

3,88

4,12

X = xi, умов. од.

3,21

3,29

3,31

3,35

3,41

3,48

3,81

 

         Y

  Х

4

9

14

19

24

29

30

3

3

40

5

4

50

40

2

8

60

5

10

6

70

4

7

3

4. Дана кореляційна таблиця. Написати  рівняння регресії Y на X, та рівняння регресії X на Y.

 

 

 

 

 

 

 

 

5.3. Множинна лінійна регресія

У багатьох практичних задачах залежна змінна  пов’язана з впливом не одного, а декількох аргументів. У цьому випадку регресію називають множинною. Якщо аргументи функції регресії мають перший степінь, то множинна регресія називається лінійною, у противному разі — множинною нелінійною регресією.

Лінійна множинна регресія.Лінійне рівняння регресії для n факторів має такий вигляд:

,                                                             (5.3)

де  – випадкова величина, яка характеризує похибку між даними спостережень і відповідними значеннями, одержаними за допомогою теоретичних розрахунків за формулою (5.3), – параметри, які знаходяться, як і у випадку парної кореляції, методом найменших квадратів.

Як і раніше ,   – результуюча змінна;  – факторні змінні;    – вільний член рівняння регресії;  – коефіцієнти регресії.

Будуємо квадратичну функцію:

.                                    (5.4)

Ця функція набуває мінімальних значень лише тоді, коли всі частинні похідні за параметрами  дорівнюють нулю. Після нескладних перетворень система рівнянь  набуває такого вигляду:

 

                        (5.5)

 

Систему рівнянь (5.5) називають нормальною.

Розв’язуючи систему рівнянь (5.5) відносно , одержуємо рі­вняння прямої лінії.

На практиці часто виникає потреба у знаходженні зв’язку між ре­зультуючою змінною і деякою фіксованою факторною змінною , якщо решта факторів є сталими величинами. У загальному випадку цю  задачу розв’язати неможливо, оскільки факторних змінних може бути дуже багато. При регресійній моделі з  – факторними змінними зв’язок між результуючою ознакою і факторною змінною  при деяких фіксованих (наприклад, середніх арифметичних) значеннях решти факторів описується рівнянням часткової регресії:

 ,

де ;   ,…, , ,…,– середні значення факторних змінних.

Зауважимо, що при переході від множинного рівняння регресії до часткового рівняння регресії фактори можна фіксувати не лише на середніх, але й на інших довільних рівнях. Крім того, на відміну від множинних рівнянь рівняння часткових регресій можна зобразити графіками на площині.

Одночасно з частковою регресією розглядають також часткову кореляцію, яка характеризує зв’язок між результуючою ознакою і деякою факторною змінною  при фіксованих (середніх) значеннях інших факторів множинного рівняння регресії.

 

Приклад. За статистичними даними за 10 років має місце залежність валового випуску продукції підприємства від наявних основних виробничих фондів та оборотних коштів. Скласти рівняння регресії. Дані задаються таблицею:

Роки

1

2

3

4

5

6

7

8

9

10

Валовий випуск (тис. гри.)

425

471

510

565

592

618

615

645

641

554

Основні виробничі фонди (тис. грн.)

320

341

360

389

400

430

444

397

471

320

Оборотні кошти (тис. грн.)

120

137

140

161

180

200

222

217

195

191

 

Розв’язання. Запишемо рівняння кореляційної залежності у такому вигляді: , де через  ми позначили вартість основних виробничих фондів, а  – вартість оборотних коштів. Складаємо розрахункову таблицю:

 

РІК

у

1

320

120

425

102400

38400

14400

136000

51000

2

341

137

471

116281

46717

18769

160601

64527

3

360

140

510

129600

50400

19600

183600

71400

4

389

161

565

151321

62629

25921

219785

90965

5

400

180

592

160000

72000

32400

236800

106560

6

430

200

618

184900

86000

40000

265740

123600

7

444

222

615

197136

98568

49284

273060

136530

8

397

217

645

157609

86149

47089

256065

139965

9

471

195

641

221841

91845

38025

301911

124995

10

320

191

554

102400

61120

36481

177280

105814

Суми

3872

1763

5636

1523488

693828

321969

2210842

1015356

 

Підставивши обчислені суми в систему рівнянь (5.5), одержуємо систему нормальних рівнянь:

.

Знайдемо розв’язок цієї системи рівнянь, наприклад, методом Крамера: ; ; . Тоді вибіркове рівняння множинної регресії має  вигляд: .

Для знаходження, наприклад, рівняння часткової регресії, яке ха­рактеризує зв’язок між валовим випуском і вартістю введених в дію виробничих фондів  при деякому постійному (середньому) рівні оборотних коштів , потрібно у множинне рівняння регресії  замість фактора , підставити його середнє значення . У результаті одержимо вибіркове рівняння часткової регресії між факторами у і х:

.

Величина  дорівнює теоретичному значенню результуючої ознаки з урахуванням заданої величини першої факторної змінної  при закріпленій на середньому рівні факторній змінній .

Коефіцієнт часткової регресії збігається з відповідним коефіцієнтом множинної регресії і має аналогічний економічний зміст. Зокрема, у наведеному прикладі частковий коефіцієнт регресії показує, що збільшення основних фондів на 1 тис. грн. при постійних (середніх) значеннях трудових ресурсів дає приріст валового випуску в середньому на 0,521 тис. грн.

 

Завдання для самостійної роботи

Задача . За статистичними даними за 10 років (в тис. грн.), які подані в таблиці, побудувати функцію ; оцінити правильність вибору форми функції (валовий випуск продукції Y; основні виробничі фонди X1; оборотні засоби X2).

Варіанти:

1

2

Рік

Y

X1

X2

Рік

Y

X1

X2

1

425

305

92

1

425

435

312

2

471

326

100

2

471

491

335

3

510

348

112

3

510

520

390

4

565

400

128

4

565

565

410

5

592

440

143

5

592

592

430

6

618

520

159

6

618

622

495

7

615

100

125

7

615

615

455

8

645

262

126

8

645

645

543

9

641

236

215

9

641

741

510

10

554

179

435

10

554

554

648

 

 

 

 

 

 

 

 

 

 

5.4.   Нелінійна регресія

Якщо попередній аналіз явищ, зв’язок між якими досліджується, показує, що однаковим змінам середніх значень факторної ознаки відповідають неоднакові зміни середніх значень результативної ознаки, то для вираження загального характеру зв’язку застосовують криволінійні форми кореляційних рівнянь. На практиці найчастіше використовуються такі нелінійні функції залежності: гіперболічна, параболічна другого порядку, напівлогарифмічна та деякі інші.

Статистичний зв’язок між характеристиками виділяють за допомогою такої математичної функції, яка дає найменше відхилення від отриманих зі спостережень значень характеристик. Рівняння таких функцій називаються рівняннями зв’язків між результуючими та фактичними характеристиками.

Вид функції, заданої рівнянням зв’язку, визначає і розмежовує зв’язки за видами їх прояву на лінійні і криволінійні (параболічні, гіперболічні, ступеневі і т.д.)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Рис. 5.7

 

Якщо результативна ознака при збільшенні факторної ознаки спадає, але не нескінченно, а прямує до певного рівня, то для її аналізу застосовується рівняння гіперболи  .

Для знаходження параметрів цього рівняння методом найменших квадра­тів складають і розв’язують систему рівнянь з двома невідомими:

,

 .

Коефіцієнт кореляції дозволяє достатньо точно оцінити щільність зв’язку у випадку лінійної залежності між ознаками. При наявності криволінійної за­лежності для оцінки щільності кореляційного зв’язку потрібно використовувати кореляційне відношення:

 .                                                      (5.6)

Величина  задовольняє нерівності . Якщо = 0, то ви­падкова величина  не знаходиться в кореляційній залежності від X. Тоді як по мірі наближення  до 1 щільність зв’язку  з X зростає, і при = 1 вона стає функціональною.

 

Зразки розв’язування задач

Приклад 1.  За даними таблиці побудувати рівняння регресії, визначити кореляційне відношення та перевірити його надійність :

х

1,0

2,0

3,0

5,0

10,0

у

7,0

5,0

3,0

2,0

1,5

 

 

 

Розв’язання.

З

 

 Аналіз даних у таблиці показує, що результативна ознака при збільшенні факторної ознаки спадає, але не нескінченно, а прямує до певного рівня, тому для її аналізу доцільно застосовувати гіперболічну форму залежності. Розрахунки оформимо у вигляді таблиці:

Номер спостереження

1

1

7,0

1,00

1,00

7,00

7,22

10,89

3,52

12,39

2

2

5,0

0,50

0,25

2,50

4,17

1,69

0,47

0,22

3

3

3,0

0,33

0,11

1,00

3,09

0,49

– 0,61

0,37

   4

5

2,0

0,20

0,04

0,4

2,28

2,89

– 1,42

2,02

5

10

1,5

0,10

0,01

0,15

1,64

4,84

-2,06

4,24

Разом

21

18,5

2,13

1,41

11,05

18,50

20,80

х

19,24

 

 

 

 

 

 

 

 

 

 

 

 

Отже      ,

 .

Таким чином, рівняння регресії матиме вигляд: .

 

 

 

 

 

 

 

Рис. 5.8

На рис. 5.8 побудовано кореляційне поле та теоретичну лінію регресії  по .

Середнє значення результативної ознаки:  .

Фактичні і теоретичні значення досліджуваних ознак (наведені в таблиці) не дуже відрізня­ються. Для визначення щільності зв’язку між результативною і факторною ознаками обчислимо кореляційне відношення:

Значення  наближене до 1, отже, кореляційне відношення показує, що між ознаками  та  існує щільна обернена залежність. Надійність показника кореляційного відношення перевіримо за  – критерієм Стьюдента. Для цього спочатку визначимо середню похибку кореляційного відношення:

,

що свідчить про високу надійність кореляційного відношення (24 > 3,18=).

Парабола другого порядку як форма математичного вираження зв’язків між  та  застосовується у тих випадках, коли із зростанням факторної озна­ки відбувається нерівномірне зростання або спадання результативної ознаки.

При знаходженні рівняння регресії застосовують тип кривої у вигляді параболи другого порядку . Параметри цього рівняння знаходять методом найменших квадратів шляхом складання і розв’язку системи рівнянь:

,

,

 .

 

Приклад 2. За даними таблиці побудувати рівняння регресії, визначити кореляційне відношення та перевірити його надійність:

х

0,0

5,0

10,0

15,0

20,0

25,0

30,0

35,0

40,0

45,0

у

1,2

5,0

7,0

8,0

9,2

9,5

9,7

9,0

9,8

8,7

 

Розв’язання. Система рівнянь буде мати вигляд:

 

 ,

 ,

.

Розрахунки оформимо у вигляді таблиці. У результаті розв’язування системи рівнянь одержимо: ;  Таким чином, рівняння регресії матиме вигляд:    .

 

Номер спостереження

x

у

ху

у

1

0

1,2

0

0

0

0,0

0,0

3,0

2

5

5,0

25

125

625

25,0

125,0

4,7

3

10

7,0

100

1000

10000

70,0

700,0

6,2

4

15

8,0

225

3375

50625

120,0

1800,0

7,4

5

20

9,2

400

8000

160000

184,0

3680,0

8,4

6

25

9,5

625

15625

390625

237,5

5937,5

9,2

7

30

9,7

900

27000

810000

291,0

8730,0

9,6

8

35

9,0

1225

42875

1500625

346,5

12127,5

10,0

9

40

9,8

1600

64000

2560000

392,0

15680,0

9,9

10

45

8,7

2025

91125

4100625

391,5

17617,5

9,6

Разом

225

78,0

7125

253125

9583125

2057,5

66697,5

78,0

 

       Побудуємо кореляційне поле та теоретичну лінію регресії Y по X (рис. 5.9).

 

 

 

 

 

 

 

 

 

 


Рис. 5.9

 

Наведемо наступну розрахункову таблицю:

 

x

0,00

5,00

10,00

15,00

20,00

25,00

30,00

35

40

45

Разом

у

1,20

5,00

7,00

8,00

9,20

9,50

9,70

9,00

9,80

8,70

78,00

3,00

4,70

6,20

7,40

8,40

9,20

9,60

10,00

9,90

9,60

78,00

43,56

7,84

0,64

0,04

1,96

2,89

3,61

4,41

4,00

0,81

69,76

4,80

3,10

1,60

0,40

0,60

1,40

1,80

2,20

2,10

1,80

X

23,04

9,61

2,56

0,16

0,38

1,96

3,24

2,84

4,51

3,24

53,42

Кореляційне відношення за даними розрахунків дорівнює:

 

 

Значення  наближене до 1, отже, кореляційне відношення показує, що між ознаками Y та X існує щільна обернена залежність.

Надійність, показника кореляційного відношення перевіримо за  – критерієм Стьюдента. Для цього спочатку визначимо середню похибку кореляційного відношення:

 

.

 

Оскільки , залежність між ознаками можна вважати доведеною.

 

Завдання для самостійної роботи

За даними таблиць побудувати відношення та перевірити його надійність.

 

Варіант 1

Варіант 2

N

X

Y

N

X

Y

1

3

47

1

5,5

4

2

7

35

2

6

2,8

3

11

20

3

6,5

1,8

4

15

15

4

7

1,2

5

19

12

5

7,5

0,8

6

23

10

6

8

0,5

7

27

9

7

8,5

0,3

8

31

8,2

8

9

0,2

9

35

7,7

9

9,5

0,1

10

39

7,5

10

10

0,1

 

Варіант 3

Варіант 4

N

X

Y

N

X

Y

1

1

7

1

1

2

2

1,5

12

2

4

12

3

2

16

3

7

20

4

2,5

19

4

10

27

5

3

21

5

13

33

6

3,5

22

6

16

38

7

4

22

7

19

42

8

4,5

21

8

22

45

9

5

20

9

25

43

10

5,5

19

10

27

40

 

 

 

 

 

 

 

 

 

Додаток 1

ТАБЛИЦЯ ЗНАЧЕНЬ ФУНКЦІЇ ЛАПЛАСА

x

Ф(x)

x

Ф(x)

x

Ф(x)

x

Ф(x)

0,00

0,0000

0,26

0,1026

0,52

0,1985

0,78

0,2823

0,01

0,0040

0,27

0,1064

0,53

0,2019

0,79

0,2852

0,02

0,0080

0,28

0,1103

0,54

0,2054

0,80

0,2881

0,03

0,0120

0,29

0,1141

0,55

0,2088

0,81

0,2910

0,04

0,0160

0,30

0,1179

0,56

0,2123

0,820

0,2939

0,05

0,0199

0,31

0,1217

0,57

0,2157

0,83

0,2967

0,06

0,0239

0,32

0,1255

0,58

0,2190

0,84

0,2995

0,07

0,0279

0,33

0,1293

0,59

0,2224

0,85

0,3023

0,08

0,0319

0,34

0,1331

0,60

0,2257

0,86

0,3051

0,09

0,0359

0,35

0,1368

0,61

0,2291

0,87

0,3078

0,10

0,0398

0,36

0,1406

0,62

0,2324

0,88

0,3106

0,11

0,0438

0,37

0,1443

0,63

0,2357

0,89

0,3133

0,12

0,0478

0,38

0,1480

0,64

0,2389

0,90

0,3159

0,13

0,0517

0,39

0,1617

0,65

0,2422

0,91

0,3186

0,14

0,8557

0,40

0,1564

0,66

0,2454

0,92

0,3212

0,15

0,0596

0,41

0,1691

0,67

0,2486

0,93

0,3238

0,16

0,0636

0,42

0,1628

0,68

0,2517

0,94

0,3264

0,17

0,0675

0,43

0,1664

0,69

0,2549

0,95

0,3289

0,18

0,0714

0,44

0,1700

0,70

0,2580

0,96

0,3315

0,19

0,0753

0,45

0,1736

0,71

0,2611

0,97

0,3340

0,20

0,0793

0,46

0,1772

0,72

0,2642

0,98

0,3365

0,21

0,0832

0,47

0,1808

0,73

0,2673

0,99

0,3389

0,22

0,0871

0,48

0,1844

0,74

0,2703

1,00

0,3413

0,23

0,0910

0,49

0,1879

0,75

0,2734

1,01

0,3438

0,24

0,0948

0,50

0,1915

0,76

0,2764

1,02

0,3461

0,25

0,0987

0,51

0,1950

0,77

0,2794

1,03

0,3485

1,04

0,3508

1,33

0,4082

1,62

0,4474

1,91

0,4719

1,05

0,3531

1,34

0,4099

1,63

0,4484

1,92

0,4726

1,06

0,3554

1,35

0,4115

1,64

0,4495

1,93

0,4732

1,07

0,3577

1,36

0,4131

1,65

0,4505

1,94

0,4738

1,08

0,3599

1,37

0,4147

1,66

0,4515

1,95

0,4744

1,09

0,3621

1,38

0,4162

1,67

0,4525

1,96

0,4750

1,10

0,3643

1,39

0,4177

1,68

0,4535

1,97

0,4756

1,11

0,3665

1,40

0,4192

1,69

0,4545

1,98

0,4761

1,12

0,3686

1,41

0,4207

1,70

0,4554

1,99

0,4767

1,13

0,3708

1,42

0,4222

1,71

0,4564

2,00

0,4772

1,14

0,3729

1,43

0,4236

1,72

0,4573

2,02

0,4783

1,15

0,3749

1,44

0,4251

1,73

0,4582

2,04

0,4793

1,16

0,3770

1,45

0,4265

1,74

0,4591

2,06

0,4803

1,17

0,3790

1,46

0,4279

1,75

0,4599

2,08

0,4812

Продовження додатка 1

x

Ф(x)

x

Ф(x)

x

Ф(x)

x

Ф(x)

1,18

0,3810

1,47

0,4292

1,76

0,4608

2,10

0,4821

1,19

0,3830

1,48

0,4306

1,77

0,4616

2,12

0,4830

1,20

0,3849

1,49

0,4319

1,78

0,4625

2,14

0,4838

1,21

0,3869

1,50

0,4332

1,79

0,4633

2,16

0,4846

1,22

0,3883

1,51

0,4345

1,80

0,4641

2,18

0,4854

1,23

0,3907

1,52

0,4357

1,81

0,4649

2,20

0,4861

1,24

0,3925

1,53

0,4370

1,82

0,4656

2,22

0,4868

1,25

0,3944

1,54

0,4382

1,83

0,4664

2,24

0,4875

1,26

0,3962

1,55

0,4394

1,84

0,4671

2,26

0,4881

1,27

0,3980

1,56

0,4406

1,85

0,4678

2,28

0,4887

1,28

0,3997

1,57

0,4418

1,86

0,4686

2,30

0,4893

1,29

0,4015

1,58

0,4429

1,87

0,4693

2,32

0,4898

1,30

0,4032

1,59

0,4441

1,88

0,4699

2,34

0,4904

1,31

0,4049

1,60

0,4452

1,89

0,4706

2,36

0,4909

1,32

0,4066

1,61

0,4463

1,90

0,4713

2,38

0,4913

2,40

0,4918

2,60

0,4953

2,80

0,4974

3,20

0,49931

2,42

0,4922

2,62

0,4956

2,82

0,4976

3,40

0,49966

2,44

0,4927

2,64

0,4959

2,84

0,4977

3,60

0,49984

2,46

0,4931

2,66

0,4961

2,86

0,4979

3,80

0,499928

2,48

0,4934

2,68

0,4963

2,90

0,4981

4,00

0,499968

2,50

0,4938

2,70

0,4965

2,92

0,4982

5,00

0,499997

2,52

0,4941

2,72

0,4967

2,94

0,4984

 

 

2,54

0,4945

2,74

0,4969

2,96

0,49846

 

 

2,56

0,4948

2,76

0,4971

2,98

0,49856

 

 

2,58

0,4951

2,78

0,4973

3,00

0,49865

x > 5

0,5

 


Додаток 2

ТАБЛИЦЯ ЗНАЧЕНЬ ,
 ЩО ЗАДОВОЛЬНЯЮТЬ РІВНІСТЬ

k

p(t)

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0,95

0,98

0,99

0,999

1

0,158

0,326

0,510

0,727

1,00

1,376

1,963

3,078

6,314

12,706

31,821

63,657

63,662

2

0,142

0,289

0,445

0,617

0,816

1,061

1,336

1,886

2,920

4,303

6,965

9,925

31,598

3

0,137

0,277

0,424

0,584

0,765

0,978

1,250

2,638

2,353

3,182

4,541

5,841

12,941

4

0,134

0,271

0,414

0,569

0,741

0,941

1,190

1,533

2,132

2,776

3,747

4,694

8,610

5

0,132

0,257

0,408

0,559

0,727

0,920

1,156

1,476

2,015

2,571

3,365

4,032

6,859

6

0,131

0,265

0,404

0,553

0,718

0,906

1,134

1,440

1,943

2,447

3,143

3,707

5,959

7

0,130

0,263

0,401

0,549

0,711

0,896

1,119

1,415

1,895

2,365

2,998

3,499

5,405

8

0,130

0,262

0,399

0,546

0,706

0,889

1,108

1,397

1,860

2,306

2,896

3,355

5,041

9

0,129

0,261

0,398

0,543

0,703

0,883

1,100

1,383

1,833

2,262

2,821

3,250

4,781

10

0,129

0,260

0,397

0,542

0,700

0,879

1,093

1,372

1,812

2,228

2,764

3,169

4,587

11

0,129

0,260

0,396

0,540

0,697

0,876

1,086

1,363

1,796

2,201

2,718

3,106

4,487

12

0,128

0,259

0,395

0,539

0,695

0,873

1,083

1,356

1,782

2,179

2,681

3,055

4,318

13

0,128

0,259

0,394

0,538

0,694

0,870

1,079

1,350

1,771

2,160

2,650

3,012

4,221

14

0,128

0,258

0,393

0,537

0,692

0,868

1,076

1,345

1,761

2,145

2,624

2,977

4,140

15

0,128

0,258

0,393

0,536

0,691

0,866

1,074

1,341

1,753

2,131

2,602

2,947

4,073

16

0,128

0,258

0,392

0,535

0,690

0,865

1,071

1,337

1,746

2,120

2,583

2,921

4,015

17

0,128

0,257

0,392

0,534

0,689

0,863

1,069

1,333

1,740

2,110

2,567

2,898

3,965

18

0,127

0,257

0,392

0,534

0,688

0,862

1,067

1,330

1,734

2,103

2,552

2,872

3,922

19

0,127

0,257

0,391

0,533

0,688

0,861

1,066

1,328

1,729

2,093

2,539

2,861

3,883

20

0,127

0,257

0,391

0,533

0,687

0,860

1,064

1,325

1,725

2,086

2,528

2,845

3,850

21

0,127

0,257

0,391

0,532

0,686

0,859

1,063

1,323

1,721

2,080

2,518

2,831

3,819

22

0,127

0,256

0,390

0,532

0,686

0,859

1,061

1,321

1,717

2,074

2,508

2,819

3,792

23

0,127

0,256

0,390

0,532

0,685

0,858

1,060

1,319

1,714

2,069

2,500

2,807

3,767

24

0,127

0,256

0,390

0,531

0,685

0,857

1,059

1,318

1,711

2,064

2,492

2,797

3,745

25

0,127

0,256

0,390

0,531

0,684

0,857

1,058

1,316

1,708

2,060

2,485

2,787

3,725

26

0,127

0,256

0,390

0,531

0,684

0,856

1,058

1,315

1,706

2,056

2,479

2,779

3,707

27

0,127

0,256

0,389

0,531

0,684

0,855

1,057

1,314

1,703

2,052

2,473

2,771

3,690

28

0,127

0,256

0,389

0,530

0,683

0,855

1,056

1,313

1,701

2,048

2,467

2,763

3,674

29

0,127

0,256

0,389

0,530

0,683

0,854

1,055

1,311

1,699

2,045

2,462

2,756

3,659

30

0,127

0,256

0,389

0,530

0,683

0,854

1,055

1,310

1,697

2,042

2,457

2,750

3,646

 

 

 

Додаток 3

ЗНАЧЕННЯ ВЕЛИЧИНИ  ЗАЛЕЖНО ВІД ІМОВІРНОСТІ

Число ступенів вільності,

k

0,2

0,10

0,05

0,02

0,01

0,005

0,002

0,001

1

1,64

2,7

3,8

5,4

6,6

7,9

9,5

10,83

2

3,22

4,6

6,0

7,8

9,2

11,6

12,4

13,8

3

4,64

6,3

7,8

9,8

11,3

12,8

14,6

16,3

4

6,0

7,8

9,5

11,7

13,3

14,9

16,9

18,5

5

7,3

9,2

11,1

13,4

15,1

16,3

18,9

20,5

6

8,6

10,6

12,6

15,0

16,8

18,6

20,7

22,5

7

9,8

12,0

14,1

16,6

18,5

20,3

22,6

24,3

8

11,0

13,4

15,5

18,2

20,1

21,9

24,3

26,1

9

12,2

14,7

16,9

19,7

21,7

23,6

26,1

27,9

10

13,4

16,0

18,3

21,2

23,2

25,2

27,7

29,6

11

14,6

17,3

19,7

22,6

24,7

26,8

29,4

31,3

12

15,8

18,5

21,0

24,1

26,2

28,3

31,0

32,9

13

17,0

19,8

22,4

25,5

27,7

29,8

32,5

34,5

14

18,2

21,1

23,7

26,9

29,1

31,0

34,0

36,1

15

19,3

22,3

25,0

28,3

30,6

32,5

35,5

37,7

16

20,5

23,5

26,3

29,6

32,0

34,0

37,0

39,2

17

21,6

24,8

27,6

31,0

33,4

35,5

38,5

40,8

18

22,8

26,0

28,9

32,3

34,8

37,0

40,0

42,3

19

23,9

27,3

30,1

33,7

36,2

38,5

41,5

43,8

20

25,0

28,4

31,4

35,0

37,6

40,0

43,0

45,3

21

26,2

29,6

32,7

36,3

38,9

41,5

44,5

46,8

22

27,3

30,8

33,9

38,7

40,3

42,5

46,0

48,3

23

28,4

32,0

35,2

39,0

41,6

44,0

47,5

49,7

24

29,6

33,2

36,4

40,3

43,0

45,5

48,5

51,2

25

30,7

34,4

37,7

41,6

44,3

47,0

50,0

52,6

26

31,8

35,6

38,9

42,9

45,6

48,0

51,5

54,1

27

32,9

36,7

40,1

44,1

47,0

49,5

53,0

55,5

28

34,0

37,9

41,3

45,4

48,3

51,0

54,5

56,9

29

35,1

39,1

42,6

46,7

49,6

52,5

56,0

58,3

30

36,3

40,3

43,8

48,0

50,9

54,0

57,5

59,7

 

 

 

 

 

Закінчення додатка 3

ЗНАЧЕННЯ ВЕЛИЧИНИ  ЗАЛЕЖНО ВІД ІМОВІРНОСТІ

Число ступенів вільності, k

0,99

0,98

0,95

0,90

0,80

0,70

0,50

0,30

1

0,00016

0,0006

0,0039

0,016

0,064

0,148

0,455

1,07

2

0,020

0,040

0,103

0,211

0,446

0,713

1,386

2,41

3

0,115

0,185

0,352

0,584

1,005

1,424

2,366

3,66

4

0,30

0,43

0,71

1,06

1,65

2,19

3,36

4,9

5

0,55

0,76

1,14

1,61

2,34

3,0

4,35

6,1

6

0,87

1,13

1,63

2,20

3,07

3,83

5,35

7,2

7

1,24

1,56

2,17

2,83

3,82

4,67

6,35

8,4

8

1,65

2,03

2,73

3,49

4,59

5,53

7,34

9,5

9

2,09

2,563

3,32

4,17

5,38

6,39

8,34

10,7

10

2,56

3,06

3,94

4,86

6,18

7,27

9,34

11,8

11

3,1

3,6

4,6

5,6

7,0

8,1

10,3

12,9

12

3,6

4,2

5,2

6,3

7,8

9,0

11,3

14,0

13

4,1

4,8

5,9

7,0

8,6

9,9

12,3

15,1

14

4,7

5,4

6,6

7,8

9,5

10,8

13,3

16,2

15

5,2

6,0

7,3

8,5

10,3

11,7

14,3

17,3

16

5,8

6,6

8,0

9,3

11,2

12,6

15,3

18,4

17

6,4

7,3

8,7

10,1

12,0

13,5

16,3

19,5

18

7,0

7,9

9,4

10,9

12,9

14,4

17,3

20,6

19

7,6

8,6

10,1

11,7

13,7

15,4

18,3

21,7

20

8,3

9,2

10,9

12,4

14,6

16,3

19,3

22,8

21

8,9

9,9

11,6

13,2

15,4

17,2

20,3

23,9

22

9,5

10,6

12,3

14,0

16,3

18,1

21,3

24,9

23

10,2

10,3

13,1

14,8

17,2

19,0

22,3

26,0

24

10,9

12,0

13,8

15,7

18,1

19,9

23,3

27,1

25

11,5

12,7

14,6

16,5

18,9

20,9

24,3

28,1

26

12,2

13,4

15,4

17,3

19,8

21,8

25,3

29,3

27

12,9

14,1

16,2

18,1

20,7

22,7

26,3

30,3

28

13,6

14,8

16,9

18,9

21,6

23,6

27,3

31,4

29

14,3

15,6

17,7

19,8

22,5

24,6

28,3

32,5

30

15,0

16,3

18,5

20,6

23,4

25,5

29,3

33,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Додаток 4

КРИТИЧНІ ТОЧКИ РОЗПОДІЛУ

Число ступенів вільності, k

Рівень значущості, a

0,01

0,025

0,05

0,95

0,975

0,999

1

6,6

5,0

3,8

0,0039

0,00098

0,00016

2

9,2

7,4

6,0

0,103

0,051

0,020

3

11,3

9,4

7,8

0,352

0,216

0,115

4

13,3

11,1

9,5

0,711

0,484

0,297

5

15,1

12,8

11,1

1,15

0,831

0,554

6

16,8

14,4

12,6

1,64

1,24

0,872

7

18,5

16,0

14,1

2,17

1,69

1,24

8

20,1

17,5

15,5

2,73

2,18

1,65

9

21,7

19,0

16,9

3,33

2,70

2,09

10

23,2

20,5

18,3

3,94

3,25

2,56

11

24,7

21,9

19,7

4,57

3,82

3,05

12

26,2

23,3

21,0

5,23

4,40

3,57

13

27,7

24,7

22,4

5,89

5,01

4,11

14

29,1

26,1

23,7

6,57

5,63

4,66

15

30,6

27,5

25,0

7,26

6,26

5,23

16

32,0

28,8

26,3

7,96

6,91

5,81

17

33,4

30,2

27,6

8,67

7,56

6,41

18

34,8

31,5

28,9

9,39

8,23

7,01

19

36,2

32,9

30,1

10,1

8,91

7,63

20

37,6

34,2

31,4

10,9

9,59

8,26

21

38.9

35,5

32,7

11,6

10,3

8,90

22

40,3

36,8

33,9

12,3

11,0

9,54

23

41,6

38,1

35,2

13,1

11,7

10,2

24

43,0

39,4

36,4

13,8

12,4

10,9

25

44,3

40,6

37,7

14,6

13,1

11,5

26

45,6

41,9

38,9

15,4

13,8

12,2

27

47,0

43,2

40,1

16,2

14,6

12,9

28

48,3

44,5

41,3

16,9

15,3

13,6

29

49,6

45,7

42,6

17,7

16,0

14,3

30

60,9

47,0

43,8

18,5

16,8

15,0

 

 

 

 

 

 

Додаток 5

КРИТИЧНІ ТОЧКИ РОЗПОДІЛУ СТЬЮДЕНТА ( t -РОЗПОДІЛУ)

 

Число ступенів
вільності, k

Рівень значущості, a

0,20

0,10

0,05

0,02

0,01

0,002

0,001

1

3,08

6,31

12,7

31,82

63,66

127,32

636,62

2

1,89

2,92

4,30

6,97

9,93

14,09

31,60

3

1,64

2,35

3,18

4,54

5,84

7,45

12,94

4

1,53

2,13

2,78

3,75

4,60

5,60

8,61

5

1,48

2,02

2,57

3,37

4,03

4,77

6,86

6

1,44

1,94

2,45

3,14

3,71

4,32

5,96

7

1,42

1,90

2,36

3,00

3,50

4,03

5,41

8

1,40

1,86

2,31

2,90

3,36

3,83

5,04

9

1,38

1,83

2,26

2,82

3,25

3,69

4,78

10

1,37

1,81

2,23

2,76

3,17

3,58

4,59

11

1,36

1,80

2,20

2,72

3,11

3,50

4,44

12

1,36

1,78

2,18

2,68

3,05

3,43

4,32

13

1,35

1,77

2,16

2,65

3,01

3,37

4,22

14

1,34

1,76

2,14

2,62

2,98

3,33

4,14

15

1,34

1,75

2,13

2,60

2,95

3,29

4,07

16

1,34

1,75

2,12

2,58

2,92

3,25

4,02

17

1,33

1,74

2,11

2,57

2,90

3,22

3,97

18

1,33

1,73

2,10

2,55

2,88

3,20

3,92

19

1,33

1,73

2,09

2,54

2,86

3,17

3,88

20

1,33

1,73

2,09

2,53

2,85

3,15

3,85

21

1,32

1,72

2,08

2,52

2,83

3,14

3,82

22

1,32

1,72

2,07

2,51

2,82

3,12

3,79

23

1,32

1,71

2,07

2,50

2,81

3,10

3,77

24

1,32

1,71

2,06

2,49

2,80

3,09

3,75

25

1,32

1,71

2,06

2,48

2,79

3,08

3,73

26

1,32

1,71

2,06

2,48

2,78

3,07

3,71

27

1,31

1,70

2,05

2,47

2,77

3,06

3,69

28

1,31

1,70

2,05

2,47

2,76

3,05

3,67

29

1,31

1,70

2,04

2,46

2,76

3,04

3,66

30

1,31

1,70

2,04

2,46

2,75

3,03

3,65

40

1,30

1,68

2,02

2,42

2,70

2,97

3,55

60

1,30

1,67

2,00

2,39

2,66

2,91

3,46

120

1,29

1,66

1,98

2,36

2,62

2,86

3,37

¥

1,28

1,64

1,96

2,33

2,58

2,81

3,29


Додаток 6

КРИТИЧНІ ТОЧКИ РОЗПОДІЛУ ФІШЕРА (F – РОЗПОДІЛУ)

 

Рівень значущості 0,05

k1

k2

1

2

3

4

5

6

12

24

¥

1

164,4

199,5

215,7

224,6

230,2

234,0

244,9

249,0

254,3

2

18,5

9,2

19,2

19,3

19,3

19,3

19,4

19,5

19,5

3

10,1

9,6

9,3

9,1

9,0

8,9

8,7

8,6

8,5

4

7,7

6,9

6,6

6,4

6,3

6,2

5,9

5,8

5,6

5

6,6

5,8

5,4

5,2

5,1

5,0

4,7

4,5

4,4

6

6,0

5,1

4,8

4,5

4,4

4,3

4,0

3,8

3,7

7

5,6

4,7

4,4

4,1

4,0

3,9

3,6

3,4

3,2

8

5,3

4,5

4,1

3,8

3,7

3,6

3,3

3,1

2,9

9

5,1

4,3

3,9

3,6

3,5

3,4

3,1

2,9

2,7

10

5,0

4,1

3,7

3,5

3,3

3,2

2,9

2,7

2,5

11

4,8

4,0

3,6

3,4

3,2

3,1

2,8

2,6

2,4

12

4,8

3,9

3,5

3,3

3,1

3,0

2,7

2,5

2,3

13

4,7

3,8

3,4

3,2

3,0

2,9

2,6

2,4

2,2

14

4,6

3,7

3,3

3,1

3,0

2,9

2,5

2,3

2,1

15

4,5

3,7

3,3

3,1

2,9

2,8

2,5

2,3

2,1

16

4,5

3,6

3,2

3,0

2,9

2,7

2,4

2,2

2,0

17

4,5

3,6

3,2

3,0

2,8

2,7

2,4

2,2

2,0

18

4,4

3,6

3,2

2,9

2,8

2,7

2,3

2,1

1,9

19

4,4

3,5

3,1

2,9

2,7

2,6

2,3

2,1

1,8

20

4,4

3,5

3,1

2,9

2,7

2,6

2,3

2,1

1,8

22

4,3

3,4

3,1

2,8

2,7

2,6

2,2

2,0

1,8

24

4,3

3,4

3,0

2,8

2,6

2,5

2,2

2,0

1,7

26

4,2

3,4

3,0

2,7

2,6

2,4

2,1

1,9

1,7

28

4,2

3,3

2,9

2,7

2,6

2,4

2,1

1,9

1,6

30

4,2

3,3

2,9

2,7

2,5

2,4

2,1

1,9

1,6

40

4,1

3,2

2,9

2,6

2,5

2,3

2,0

1,8

1,5

60

4,0

3,2

2,8

2,5

2,4

2,3

1,9

1,7

1,4

120

3,9

3,1

2,7

2,5

2,3

2,2

1,8

1,6

1,3

¥

3,8

3,0

2,6

2,4

2,2

2,1

1,8

1,5

1,0

 

 

 

 

 

 

 

 

 

 

Продовження додатка 6

Рівень значущості 0,01

k1

k2

1

2

3

4

5

6

8

12

24

¥

1

4052

4999

5403

5625

5764

5859

5981

6106

6234

6366

2

98,5

99,0

99,2

99,3

99,3

99,4

99,3

99,4

99,5

99,5

3

34,1

30,8

29,5

28,7

28,2

27,9

27,5

27,1

26,6

26,1

4

21,2

18,0

16,7

16,0

15,5

15,2

14,8

14,4

13,9

13,5

5

16,3

13,3

12,1

11,4

11,0

10,7

10,3

9,9

9,5

9,0

6

13,7

10,9

9,8

9,2

8,8

8,5

8,1

7,7

7,3

6,9

7

12,3

9,6

8,5

7,9

7,5

7,2

6,8

6,5

6,1

5,7

8

11,3

8,7

7,6

7,0

6,6

6,4

6,0

5,7

5,3

4,9

9

10,6

8,0

7,0

6,4

6,1

5,8

5,5

5,1

4,7

4,3

10

10,0

7,6

6,6

6,0

5,6

5,4

5,1

4,7

4,3

3,9

11

9,7

7,2

6,2

5,7

5,3

5,1

4,7

4,4

4,0

3,6

12

9,3

6,9

6,0

5,4

5,1

4,8

4,5

4,2

3,8

3,4

13

9,1

6,7

5,7

5,2

4,9

4,6

4,3

4,0

3,6

3,2

14

8,9

6,5

5,6

5,0

4,7

4,5

4,1

3,8

3,4

3,0

15

8,7

6,4

5,4

4,9

4,6

4,3

4,0

3,7

3,3

2,9

16

8,5

6,2

5,3

4,8

4,4

4,2

3,9

3,6

3,2

2,8

17

8,4

6,1

5,2

4,7

4,3

4,1

3,8

3,5

3,1

2,7

18

8,3

6,0

5,1

4,6

4,3

4,0

3,7

3,4

3,0

2,6

19

8,2

5,9

5,0

4,5

4,2

3,9

3,6

3,3

2,9

2,4

20

8,1

5,9

4,9

4,4

4,1

3,9

3,6

3,2

2,9

2,4

22

7,9

5,7

4,8

4,3

4,0

3,8

3,5

3,1

2,8

2,3

24

7,8

5,6

4,7

4,2

3,9

3,7

3,3

3,0

2,7

2,2

26

7,7

5,5

4,6

4,1

3,8

3,6

3,3

3,0

2,6

2,1

28

7,6

5,5

4,6

4,1

3,8

3,5

3,2

2,9

2,5

2,1

30

7,6

5,4

4,5

4,0

3,7

3,5

3,2

2,8

2,5

2,0

40

7,3

5,2

4,3

3,8

3,5

3,3

3,0

2,7

2,3

1,8

60

7,1

5,0

4,1

3,7

3,3

3,1

2,8

2,5

2,1

1,6

120

6,9

4,8

4,0

3,5

3,2

3,0

2,7

2,3

2,0

1,4

¥

6,6

4,6

3,8

3,3

3,0

2,8

2,5

2,2

1,8

1,0

 

 

 

 

 

 

 

 

 

 

 

Закінчення додатка 6

Рівень значущості 0,001

k1

k2

1

2

3

4

5

6

8

12

24

¥

1

Змінюється від 400 000 до 600 000

2

998

999

999

999

999

999

999

999

999

999

3

167

148

141

137

135

133

131

128

126

123

4

74,1

61,3

56,2

53,4

51,7

50,5

49,0

47,4

45,8

44,1

5

47,0

36,6

33,2

31,1

29,8

28,8

27,6

26,4

25,1

23,8

6

35,5

27,0

23,7

21,9

20,8

20,0

19,0

18,0

16,9

15,8

7

29,2

21,7

18,8

17,2

16,2

15,5

14,6

13,7

12,7

11,7

8

25,4

18,5

15,8

14,4

13,5

12,9

12,0

11,2

10,3

9,3

9

22,9

16,4

13,9

12,6

11,7

11,1

10,4

9,6

8,7

7,8

10

21,0

14,9

12,6

11,3

10,5

9,9

9,2

8,5

7,6

6,8

11

19,7

13,8

11 ,6

10,4

9,6

9,1

8,3

7,6

6,9

6,0

12

18,6

13,0

10,8

9,6

8,9

8,4

7,7

7,0

6,3

5,4

13

17,8

12,3

10,2

9,1

8,4

7,9

7,2

6,5

5,8

5,0

14

17,1

11,8

9,7

8,6

7,9

7,4

6,8

6,1

5,4

4,6

15

16,6

11,3

9,3

8,3

7,6

7,1

6,5

5,8

5,1

4,3

16

16,1

11,0

9,0

7,9

7,3

6,8

6,2

5,6

4,9

4,1

17

15,7

10,7

8,7

7,7

7,0

6,6

6,0

5,3

4,6

3,9

18

15.4

10,4

8,5

7,5

6,8

6,4

5,8

5,1

4,5

3,7

19

15,1

10,2

8,3

7,3

6,6

6,2

5,6

5,0

4,3

3,5

20

14,8

10,0

8,1

7,1

6,5

6,0

5,4

4,8

4,2

3,4

22

14,4

9,6

7,8

6,8

6,2

5,8

5,2

4,6

3,9

3,2

24

14,0

9,3

7,6

6,6

6,0

5,6

5,0

4,4

3,7

3,0

26

13,7

9,1

7,4

6,4

5,8

5,4

4,8

4,2

3,6

2,8

28

13,5

8,9

7,2

6,3

5,7

5,2

4,7

4,1

3,5

2,7

30

13,3

8,8

7,1

6,1

5,5

5,1

4,6

4,0

3,4

2,6

40

12,6

8,2

6,6

5,7

5,1

4,7

4,2

3,6

3,0

2,2

60

12,0

7,8

6,2

5,3

4,8

4,4

3,9

3,3

2,7

1,9

120

11,4

7,3

5,8

5,0

4,4

4,0

3,5

3,0

2,4

1,6

¥

10,8

6,9

5,4

4,6

4,1

3,7

3,3

2,7

2,1

1,0

 

 

 

 

 

 

 

Додаток 7

ТАБЛИЦЯ ЗНАЧЕНЬ

n

g

n

g

0,95

0,99

0,999

0,95

0,99

0,999

5

1,37

2,67

5,64

20

0,37

0,58

0,88

6

1,09

2,01

3,88

25

0,32

0,49

0,73

7

0,92

1,62

2,98

30

0,28

0,43

0,63

8

0,80

1,38

2,42

35

0,26

0,38

0,56

9

0,71

1,20

2,06

40

0,24

0,35

0,50

10

0,65

1,08

1,80

45

0,22

0,32

0,46

11

0,59

0,98

1,60

50

0,21

0,30

0,43

12

0,55

0,90

1,45

60

0,188

0,269

0,38

13

0,52

0,83

1,33

70

0,174

0,245

0,34

14

0,48

0,78

1,23

80

0,161

0,226

0,31

15

0,46

0,73

1,15

90

0,151

0,211

0,29

16

0,44

0,70

1,07

100

0,143

0,198

0,27

17

0,42

0,66

1,01

150

0,115

0,160

0,211

18

0,40

0,63

0,96

200

0,099

0,136

0,185

19

0,39

0,60

0,92

250

0,089

0,120

0,162

Статистичний критерій.
Емпіричне значення критерію

Для перевірки правильності висунутої статистичної гіпотези вибирають так званий статистичний критерій, керуючись яким відхиляють або не відхиляють нульову гіпотезу. Статистичний критерій, котрий умовно позначають через K, є випадковою величиною, закон розподілу ймовірностей якої нам заздалегідь відомий.

Наприклад, для перевірки правильності  як статистичний критерій K можна взяти випадкову величину, яку позначають через K = Z, що дорівнює

,                                                                      

і яка має нормований нормальний закон розподілу ймовірностей. При великих обсягах вибірки (n > 30) закони розподілу статистич­них критеріїв наближатимуться до нормального.

Спостережуване значення критерію, який позначають через K*, обчислюють за результатом вибірки.

 Область прийняття гіпотези.
Критична область. Критична точка

Множину W всіх можливих значень статистичного критерію K можна поділити на дві підмножини А і , які не перетинаються.

.

Сукупність значень статистичного критерію K Î А, за яких нульова гіпотеза не відхиляється, називають областю прийняття нульової гіпотези.

Сукупність значень статистичного критерію K Î , за яких нульова гіпотеза не приймається, називають критичною областю.

Отже, А — область прийняття Н0,

 — критична область, де Н0 відхиляється.

Точку або кілька точок, що поділяють множину W на підмножини А і , називають критичними і позначають через Kкр.

Існують три види критичних областей:

Якщо при K < Kкр нульова гіпотеза відхиляється, то в цьому разі ми маємо лівобічну критичну область, яку умовно можна зобразити .

Якщо при  нульова гіпотеза відхиляється, то в цьому разі маємо правобічну критичну область (рис. 2).

Якщо ж при  і при  нульова гіпотеза відхиляється, то маємо двобічну критичну область

Рис. 3

Лівобічна і правобічна області визначаються однією критичною точкою, двобічна критична область — двома критичними точками, симетричними відносно нуля.

 Загальний алгоритм перевірки
правильності нульової гіпотези

Для перевірки правильності Н0 задається так званий рівень значущості a.

a — це мала ймовірність, якою наперед задаються. Вона може набувати значення a = 0,005; 0,01; 0,001.

В основу перевірки Н0 покладено принцип , тобто ймовірність того, що статистичний критерій потрапляє в критичну область , дорівнює малій імовірності a. Якщо ж виявиться, що  а ця подія малоймовірна і все ж відбулася, то немає підстав приймати нульову гіпотезу.

Пропонується такий алгоритм перевірки правильності Н0:

1. Сформулювати Н0 й одночасно альтернативну гіпотезу Нa.

2. Вибрати статистичний критерій, який відповідав би сформульованій нульовій гіпотезі.

3. Залежно від змісту нульової та альтернативної гіпотез будується правобічна, лівобічна або двобічна критична область, а саме:

нехай , тоді, якщо

, то вибирається правобічна критична область, якщо

, то вибирається лівобічна критична область і коли

, то вибирається двобічна критична область.

4. Для побудови критичної області (лівобічної, правобічної чи двобічної) необхідно знайти критичні точки. За вибраним статистичним критерієм та рівнем значущості a знаходяться критичні точки.

5. За результатами вибірки обчислюється спостережуване значення критерію .

6. Відхиляють чи приймають нульову гіпотезу на підставі таких міркувань:

у разі, коли , а це є малоймовірною випадковою по-
дією,  і, незважаючи на це, вона відбулася, то в цьому разі Н0 відхиляється:

для лівобічної критичної області

;                                                             

для правобічної критичної області

;                                                             

для двобічної критичної області

                                            

або

,                                          

ураховуючи ту обставину, що критичні точки  і  симетрич­но розташовані відносно нуля. відносно нуля.

Помилки першого та другого роду.
Потужність критерію

Якою б не була малою величина a, потрапляння спостережуваного значення  у критичну область  ніколи не буде подією абсолютно неможливою. Тому не виключається той випадок, коли Н0 буде правильною, а , а тому нульову гіпотезу буде відхилено.

Отже, при перевірці правильності Н0 можуть бути допущені помилки. Розрізняють при цьому помилки першого і другого роду.

Якщо Н0 є правильною, але її відхиляють на основі її перевірки, то буде допущена помилка першого роду.

Якщо Н0 є неправильною, але її приймають, то в цьому разі буде допущена помилка другого роду.

Між помилками першого і другого роду існує тісний зв’язок.

Нехай, для прикладу, перевіряється . При великих обсягах вибірки n , як випадкова величина, закон розподілу ймовірностей якої асимптотично наближатиметься до нормального з числовими характеристиками:

, .

Тому, коли гіпотеза Н0 є правдивою, . Цей розподіл має такий вигляд (рис. 4, крива f (x; a)).

Рис. 4

Коли альтернативна гіпотеза заперечує Н0 і стверджує , то в цьому разі нормальна крива буде зміщена праворуч (на рис. 4 крива f (x; b)).

За вибраним рівнем значущості a визначається критична область (рис. 4).

Коли , то Н0 відхиляється з імовірністю помилки першого роду:

                                              

Коли , то Н0 не відхиляється, хоча може бути правиль­ною альтернативна гіпотеза Нa.

Отже, в цьому разі припускаються помилки другого роду.

Імовірність цієї помилки, яку позначають символом b, може бути визначена на кривій f (x; b), а саме:

.                                                               

Ця ймовірність на рис. 4 показана штрихуванням площі під кривою f (x; b), що міститься ліворуч Kкр.

Якщо з метою зменшення ризику відхилити правильну гіпотезу Н0 зменшуватимемо значення a, то в цьому разі критична точка Kкр зміщуватиметься праворуч, що, у свою чергу, спричинює збільшення ймовірності помилки другого роду, тобто величини b.

Різницю  називають імовірністю обґрунтованого відхилення Н0, або потужністю критерію.

Під час розв’язування практичних завдань може виникнути потреба вибору статистичного критерію з їх певної множини. У цьому разі вибирають той критерій, якому притаманна найбільша потужність.

Параметричні статистичні гіпотези

 Перевірка правильності нульової гіпотези про значення генеральної середньої

Для перевірки правильності , де «а» є певним числом, при заданому рівні значущості a насамперед необхідно вибрати статистичний критерій K.

Найзручнішим критерієм для цього типу задач є випадкова величина K = Z, що має нормований нормальний закон розподілу ймовірностей N(0; 1), а саме:

.                                      

При розв’язуванні такого класу задач можливий один із трьох випадків:

2)              при  — будується правобічна критична область;

2) при  — будується лівобічна критична область;

3) при  (тобто може бути , або ) — будується двобічна критична область.

Лівобічна і правобічна критичні області визначаються однією критичною точкою, двобічна — двома критичними точками, розташованими симетрично щодо нуля (у цьому разі потужність критерію буде максимальною), будуть рівними між собою за модулем і матимуть протилежні знаки.

Для побудови правобічної критичної області необхідно знайти критичну точку  за умови . Значення  обчислюємо з рівняння

.                    


, оскільки .

За таблицею значень функції Лапласа, скориставшись значенням , знаходимо аргумент .

Правобічна критична область зображена на рис. 5.

Рис. 5

Для побудови лівобічної критичної області необхідно знайти критичну точку , дотримуючись умови .

 у цьому випадку обчислюється з допомогою рівняння

.

Враховуючи ту обставину, що функція Лапласа  є непарною, за таблицею значень  знаходимо аргумент  і беремо його із знаком «мінус» . Лівобічна критична область зображена на рис. 6

Рис. 6

Для двобічної критичної області необхідно знайти дві критичні точки ,  за умови

,   ,

де .

Отож, нам необхідно обчислити лише , скориставшись рівнянням

.                    

                 ,

де  знаходимо за таблицею значень функції Лапласа.

Двобічна критична область зображена на рис. 7.

Рис. 7

Розглянутий метод побудови критичних областей придатний лише за умови, коли відоме значення середнього квадратичного відхилення  ознаки генеральної сукупності. При цьому спостережуване значення критерію обчислюється так:

.                                                                   

У випадку, коли значення  є невідомим, його замінюють статистичною оцінкою

.

Тоді за статистичний критерій вибирається випадкова величина K = t, що має розподіл Стьюдента з k = n – 1 ступенями свободи, а саме:

.                                                                     

Критичні точки у цьому разі визначаються за таблицею (додаток 6) заданим рівнем значущості a та числом ступенів свободи k = n – 1. Спостережуване значення критерію обчислюється за формулою

.

 

Правильність вибору закону розподілу чи оцінки його параметрів для генеральної сукупності перевіряється за допомогою статистичних методів перевірки статистичних гіпотез.

Під статистичною гіпотезою будемо розуміти припущення відносно закону розподілу генеральної сукупності чи оцінки його параметрів. Можливі інші гіпотези: про рівність параметрів двох чи декількох розподілів, про незалежність вибірок тощо.

Статистичною називають гіпотезу про вигляд невідомого розподілу або про параметри невідомих розподілів. Наприклад, статистичними є гіпотези:

1) генеральна сукупність, розподілена за нормальним законом;

2) дисперсії двох нормальних розподілів, рівні між собою.

Нульовою (основною) називають запропоновану гіпотезу, яку ми будемо позначати через .

Альтернативною (конкуруючою) називають гіпотезу , яка супе­речить основній.        

Розрізняють також гіпотези за кількістю припущень.

Простою називають гіпотезу, яка має одне припущення, інак­ше гіпотеза є складною.

Наприклад: 1. У законі Пуассона l = 3 – проста гіпотеза;

2. Якщо l  > 3, то це складна гіпотеза.

Висунута гіпотеза може бути правильною або неправильною, тому виникає необхідність її перевірки. Оскільки перевірка проводиться статистичними методами, то її називають статистичною. При прийнятті рішень за допомогою гіпотез можуть статися помилки двох родів.

Помилка першого роду полягає в тому, що буде відкинута правильна гіпотеза, тобто гіпотеза  є правильною, але її відхиляють на основі її перевірки.

Помилка другого роду полягає в тому, що буде прийнята неправильна гіпотеза, тобто гіпотеза  приймається, але в дійсності вірна конкуруюча гіпотеза .

Імовірність здійснити помилку першого роду позначимо через a і будемо називаємо її рівнем значущості.

Число a задають малим і найчастіше використовують значення a, що дорівнюють 0,05; 0,01 і т. д. Якщо, наприклад, a = 0,01, то це означає, що в одному випадку із 100 є ризик допустити помилку пер­шого роду (відкинути гіпотезу ).

Для перевірки гіпотез використовуємо спеціально підібрану ве­личину, точне чи наближене значення якої відоме.

Статистичним критерієм називають випадкову величину , яка є основою для перевірки нульової гіпотези.

Найбільш розповсюдженим критерієм перевірки вірогідності  про закон розподілу ознаки генеральної сукупності є критерій узгодженості , який визначається за формулою .

Тут m – число інтервалів (часткових), на які поділяється статистичний розподіл вибірки;  – частота ознаки в і-у інтервалі;  — теоретичні частоти, підраховані за відповідними формулами закону розподілу ймовірностей, який припускається для ознаки генеральної сукупності.

Теоретичні частоти знаходяться за формулою , де n – об’єм вибірки; – для дискретної випадкової величини є ймовірність події X = хi, для неперервної випадкової величини  є ймовірність того, що ознака X  попаде в і-ий інтервал.

Наприклад, для гіпотези , яка припускає, що ознака генераль­ної сукупності має нормальний закон розподілу, імовірність  може бути обчислена за формулою  , де  – функція Лапласа.

Для перевірки правильності гіпотез, як уже згадувалося, вибирається статистичний критерій, який умовно позначається через , де  – випадкова величина, закон розподілу якої відомий. Для різних гіпотез ці критерії є різними.

Множину R значень статистичного критерію  можна розбити на дві підмножини, що не перетинаються,  А і  .

Значення статистичного критерію підмножини   , при яких нульова гіпотеза приймається, називається областю прийняття гіпотези, а значення, при яких гіпотеза  відхиляється,  критичною областю.

За характером критичні області поділяються на односторонні та двосторонні.

Області А і  (прийняття гіпотез і критичні) між собою розділяються точками, які ми будемо називати критичними і позначати .

Правосторонньою критичною областю називається така об­ласть, для якої виконується нерівність (рис. 4.1а).

 

 

 


    а                               б                                             в

Рис. 4.1

 

Відповідно критична область буде лівосторонньою, якщо виконується нерівність  (рис. 4.1б).

Двосторонньою будемо називати критичну область, яка задовольняє нерівності і  (рис. 4.1в).

У більшості випадків для двосторонньої критичної області точки  і  розташовані симетрично по відношенню до нуля, тобто  .

Перевірка статистичних гіпотез будь-якої природи може бути описана за допомогою такої загальної схеми.

1. Формулюється статистична гіпотеза  і альтернативна .

2. Вибирається статистичний критерій відповідно до сформульованої нульової гіпотези .

3. Залежно від змісту нульової  і альтернативної  гіпотез вибирається одностороння або двостороння критична область.

4. Для побудови критичної області необхідно знайти значення критичних точок.

В основі побудови критичної області покладено принцип практичної неможливості здійснитися малоймовірній випадковій події при одній спробі. За вибраним статистичним критерієм  та рівнем значущості  з допомогою спеціальних таблиць визначається критична точка . Згідно знайденого  відповідно будується лівостороння, правостороння або двостороння критична область.

5. За результатами вибірки обчислюється спостережене значення кри­терію .

6. Приймається рішення прийняти чи відхилити нульову гіпотезу  на підставі таких міркувань: якщо гіпотеза  правильна, то , тобто ймовірність того, що статистичний критерій потрапляє в критичну область , дорівнює малій ймовірності . Якщо  потрапляє в критичну область , а ця подія малоймовірна і все ж відбулася, то в цьому разі  відхилити.

7. Це твердження має наступний вигляд для різних типів областей: для лівосторонньої критичної області: , для правосторонньої

, для двосторонньої області .

8. Враховуючи ту обставину, що критичні точки  і  розташовані симетрично відносно нуля, двосторонню критичну область будують також симетричною, отже .

9. Якщо  не потрапляє у критичну область, то нульова гіпотеза  приймається.

 

 

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Приєднуйся до нас!
Підписатись на новини:
Наші соц мережі