Дисперсійний аналіз
За допомогою багатофакторної регресії можна аналізувати численні соціальні проблеми. Наприклад, досліджувати, як впливають різні соціальні фактори на кількість зареєстрованих в Україні злочинів протягом останього десятиліття. Для аналізу та побудови багатофакторної регресійної моделі можна обрати такі фактори, як загальна кількість населення в Україні, забезпеченість населення житлом, продаж алкогольних напоїв у розрахунку на душу населення, кількість людей, що мають вищу та середню освіту в розрахунку на 1000 осіб, реальну середню заробітну плату робітників та службовців, рівень безробіття, рівень культурного розвитку нації та інші.
Досить актуальною в Україні залишається проблема аналізу народжуваності, а саме впливу різноманітних факторів на кількість народжених. Серед таких факторів виділимо кількість жіночого населення віком від 16 до 47 років, частку пенсіонерів у загальній кількості населення України, реальні грошові доходи населення, кількість постійних дошкільних закладів, кількість зареєстрованих шлюбів, кількість зареєстрованих розлучень, кількість абортів, кількість хворих з діагнозом на алкоголізм та наркоманію тощо.
Підсумуючи розглянуті вище приклади, зазначимо, що саме багатофакторний регресійний аналіз допомагає знайти явний вигляд залежності досліджуваного показника від численних факторів, що впливають на його зміну, а також кількісно оцінити їхній вплив.
КЛАСИЧНА ЛІНІЙНА БАГАТОФАКТОРНА МОДЕЛЬ.
ОСНОВНІ ПРИПУЩЕННЯ У БАГАТОФАКТОРНОМУ РЕГРЕСІЙНОМУ АНАЛІЗІ
Узагальнена багатофакторна лінійна регресійна модель може бути записана у такому вигляді:
(1)
де у – залежна змінна;
-
незалежні змінні (або фактори);
-
параметри моделі (константи), які потрібно оцінити;
e - неспостережувана випадкова величина.
Нагадаємо, що узагальнена регресійна модель – це модель, яка дійсна для всієї генеральної сукупності. Невідомі параметри узагальненої моделі є константами, а випадкова величина – неспостережувана, і ми можемо зробити тільки припущення відповідно до закону її розподілу. На відміну від узагальненої регресійної моделі, вибіркова модель будується для певної вибірки; невідомі параметри вибіркової моделі є випадковими величинами, математичне сподівання яких дорівнює параметрам узагальненої моделі (випадок класичної лінійної регресії), випадкові величини (помилки) можна оцінити, виходячи з вибіркових даних.
Вибіркова лінійна багатофакторна модель має такий вигляд:
де у – залежна змінна;
- незалежні змінні
(або фактори);
- оцінки невідомих
параметрів узагальненої моделі;
е – випадкова
величина (помилка).
Лінійною регресійною моделлю називається модель, лінійна за своїми параметрами.
За введеними нами позначеннями, багатофакторна лінійна
регресійна модель має р незалежних змінних, або факторів, які впливають
на залежну змінну у, та невідомих
параметрів, які потрібно оцінити.
Як було вже сказано, у разі узагальненої регресійної моделі, тобто моделі, дійсної для всієї генеральної сукупності, випадкова величина e є неспостережуваною величиною, і ми можемо зробити лише деякі припущення щодо її поведінки та закону розподілу. Для класичної багатофакторної регресійної моделі, яка є узагальненням простої лінійної регресійної моделі, всі основні класичні припущення зберігаються, але дещо модифікуються. Розглянемо ці припущення.
Математичне сподівання випадкової величини e дорівнює 0.
|
для кожного і,
Випадкові величини незалежні між собою.
;
Модель гомоскедастична, тобто має однакову дисперсію для будь-якого спостереження:
Коваріація між випадковою величиною та кожною незалежною
змінною х дорівнює 0.
Зазначимо, що властивість 4 виконується автоматично,
якщо не стохастичні та
припущення 1 має силу.
Модель повина бути правильно специфікованою.
Випадкова величина e відповідає нормальному закону розподілу з нульовими математичним сподіванням і постійною дисперсією.
Відсутність мультиколінеарності між факторами х, тобто фактори повинні бути незалежними між собою. Іншими словами, не повинно бути точного лінійного зв’язку між двома або більше факторами.
Слід зазначити, що припущення 7 не прийнятне для простої лінійної регресії, але воно надзвичайно важливе для багатофакторної регресії. Зважаючи на це, розглянемо його детальніше.
Припустимо, що є лінійна залежність між факторами х1 та х2. В такому випадку неможливо точно визначити окремий вплив кожного з цих факторів на залежну змінну у.
Математично відсутність колінеарності між двома факторами, наприклад факторами х1 та х2, визначається таким чином, що не існує чисел g1 та g2, які одночасно не дорівнюють 0, для яких би виконувалась тотожність
(2)
Іншими словами, якщо тотожність (2) виконується тільки
тоді, коли , то х1
та х2 лінійно незалежні, або неколінеарні. У протилежному
разі має місце колінеарність.
Інтуїтивно встановлюємо, що коли між двома змінними, наприклад х1 та х2, є лінійний зв’язок, то йдеться не про дві, а одну незалежну змінну, бо неможливо знайти окремий вплив кожної з цих змінних на у.
Покажемо це. Нехай незалежність між х1 та
х2 має вигляд: .
Тоді вираз (1) можна переписати у вигляді:
(3)
Якщо бачимо з (3), кількість змінних зменшилась на 1,
а параметр є оцінкою спільного
впливу х1 та х2 на у, який не можна
розділити.
Процес побудови багатофакторної регресійної моделі
Процес побудови багатофакторної регресійної моделі більш складний, ніж процес побудови простої лінійної регресії. Він складається з багатьох етапів. Серед них можна виділити такі.
1. Вибір та аналіз усіх можливих факторів, які впливають на процес (або показник), що вивчається.
2. Вибір та аналіз знайдених факторів.
3. Математико-статистичний аналіз факторів.
Вибір методу та побудова регресійної багатофакторної моделі.
5. Оцінка невідомих параметрів регресійної моделі.
6. Перевірка моделі на адекватність.
7. Розрахунок основних характеристик та побудова інтервалів довіри.
8. Аналіз отриманих результатів, висновки.
Розглянемо детально кожний з етапів побудови та аналіз багатофакторної регресійної моделі.
Перший етап складається з вибору всіх можливих факторів, які впливають на процес або показник, що вивчається. На цьому етапі дослідник повинен глибоко зрозуміти сам економічний процес, розглянути його з макроекономічних та мікроекономічних позицій; виявити якомога більше факторів, які в конкретному випадку можуть справити суттєвий або несуттєвий вплив на його зміну. На цьому етапі можуть знадобитися поради практиків, які працюють у галузі або на фірмі, що вивчається, і т. ін. Після того, як множина всіх факторів окреслина, переходять до другого етапу – кількісного аналізу відібраних факторів.
На етапі кількісного аналізу дослідник повинен оцінити можливість кількісного вираження факторів, провести вимірювання або зібрати статистику для кількісних факторів; підібрати або розробити балову шкалу оцінок для якісних даних. Якщо деякі фактори неможливо кількісно виразити, наприклад імідж продукції у населення, їх треба вилучити з подальшого розгляду. З подальшого розгляду вилучаються також фактори, за якими немає або недоступна статистика.
Після того, як усі фактори проаналізовано, подано у кількісному вигляді, тобто у вигляді динамічних або варіаційних рядів, переходять до третього етапу – етапу математико-статистичного аналізу.
Етап математико-статистичного аналізу є найважливішим підготовчим етапом для побудови регресійної багатофакторної моделі. Це заключний етап формування необхідної інформаційної бази.
При наявності у динамічних рядах недостатньої інформації саме на цьому етапі за допомогою спеціальних методів проводиться її відтворення. На цьому етапі проводиться перевірка основних припущень класичного регресійного аналізу, крім того, здійснюється найважливіша процедура багатофакторного аналізу – перевірка факторів на мультиколінеарність. Для цього спочатку будується матриця коефіцієнтів парної кореляції, яка є симетричною і має такий вигляд:
де
R –
матриця кореляції;
;
- коефіцієнт парної
кореляції між і-м та j-м факторами;
-
коефіцієнт кореляції між залежною змінною у та j-м
фактором.
Потім аналізуються коефіцієнти парної кореляції між факторами. Якщо зазначення деяких з них близьке до 1, це вказує на щільний зв’язок між ними, або на мультиколінеарність. Тоді один з факторів необхідно залишити, а інший вилучити із подальшого розгляду. Постає питання: який саме? Це залежить від конкретної ситуації. Найчастіше залишають той фактор, який з економічної точки зору більш вагомий для аналізу впливу на залежну змінну. Можна також залишити фактор, який має більший коефіцієнт кореляції із залежною змінною у. Такий аналіз проводиться для кожної пари залежних між собою факторів. Результатом етапу математико-статистичного аналізу є знаходження множини основних незалежних між собою факторів, які є базою для побудови регресійної моделі.
Метод побудови регресійної багатофакторної моделі неможливо відокремити від самої моделі, вони найтіснішим чином пов’язані між собою. Іншими словами, саме обраний метод впливає на остаточний вигляд регресійної моделі. Це ми розглядатимемо дещо пізніше.
Оцінка невідомих параметрів здійснюється у
лінійних регресійних моделях за методом найменших квадратів, уже відомим із
розділу простої лінійної регресії.
Після того, як параметри знайдено, проводиться перевірка моделей на адекватність за допомогою F – критерію Фішера, а також перевірка значимості знайдених параметрів за t-критерієм Ст’юдента. Якщо модель неадекватна, то необхідно повернутися до етапу побудови моделі і, можливо, від лінійної моделі перейти до нелінійної, або ввести додаткові фактори.
Якщо модель адекватна, то можемо працювати далі:
робити прогнозування, вивчати вплив окремих факторів на залежний показник,
будувати інтервали довіри, аналізувати та інтерпретувати отримані результати.
Для того, щоб розглянути, як можна проінтерпретувати параметри регресійної
моделі, повернемося до загальної моделі багатофакторного регресійного аналізу
(1) та знайдемо математичне очікування обох частин. Виходячи з основних припущень,
отримаємо: |
(7)
Рівняння (4) дає умовне математичне сподівання у при фіксованих значеннях х.
Параметри ще
називають коефіцієнтами регресії. Кожний з них вимірює вплив відповідної
змінної за умови, що всі інші залишаються, тобто є константами.
РОЗРАХУНОК НЕВІДОМИХ ПАРАМЕТРІВ БАГАТОФАКТОР-
НОЇ РЕГРЕСІЇ ЗА МЕТОДОМ НАЙМЕНШИХ КВАДРАТІВ (МНК)
Нехай
маємо ряд спостережень за залежною змінною та за незалежними змінними, або факторами:
На підставі цих спостережень побудуємо лінійну вибіркову багатофакторну модель, а саме:
(5)
де
у – залежна змінна; - незалежні змінні, або фактори;
- невідомі параметри; е – випадкова величина,
або помилка.
Як і у випадку простої лінійної регресії, знайдемо невідомі параметри за методом найменших квадратів, тобто мінімізуючи суму квадратів відхилень фактичних даних від теоретичнтх (даних, які ми отримуємо з регресійної моделі):
(6)
Для того, щоб знайти мінімум вирвзу (6), необхідно
прирівняти до нуля часткові похідні функції F за
аргументами Отримаємо систему нормальних рівнянь. Зважаючи на
досить громізкий вигляд системи нормальних рівнянь у загальному випадку, ми не
будемо її наводимо. Загальний вираз для розрахунку невідомих параметрів моделі
розглянемо пізніше, коли повернимося до матричного підходу в багатофакторному
аналізі. Зазначимо тільки, що перетин (параметр b0)
розраховується аналогічно до простої регресії за допомогою середніх значень:
ВЛАСТИВОСТІ МЕТОДУ НАЙМЕНШИХ КВАДРАТІВ
Властивості методу найменших квадратів у випадку багатофакторної регресії збігаються з його властивостями у випадку простої лінійної регресії:
Властивість 1. Багатофакторна регресійна модель правильна для середніх точок
Тобто для моделі
маємо:
(8)
Властивість 2. Середнє значення оцінки дорівнює середньому значенню фактичних даних,
тобто
Це легко показати:
(9)
Просумуємо обидві частини (9) за і і, виходячи з того,
що
; для
, отримаємо
.
Для пояснення решти властивостей введемо позначення.
Позначимо ,
тоді рівність (9) можна переписати:
(10)
де
На основі (10) багатофакторну вибіркову модель (5) можна записати у формі:
(11)
Властивість 3. Сума помилок дорівнює нулю. (Це випливає з (11)).
Властивість Помилки некорельовані
з
тобто
Властивість 5. Помилки некорельовані
з
, тобто
Властивість 6. Якщо правильні припущення класичної лінійної регресійної моделі, то МНК-оцінки є не тільки лінійними, без відхилень оцінками, а й мають найменшу дисперсію, тобто є BLU-оцінками.
КОЕФІЦІЄНТ МНОЖИННОЇ КОРЕЛЯЦІЇ ТА ДЕТЕРМІНАЦІЇ
Корисною мірою ступеня відповідності даних , отриманих з
регресійної моделі, фактичним даним
є
коефіцієнт множинної кореляції, який визначається як коефіцієнт кореляції між у
та
і має вигляд:
(12)
Квадрат коефіцієнта множинної кореляції, як і у випадку простої регресії, називають коефіцієнтом детермінації і позначають через R2. Можна показати, що вигляд коефіцієнта детермінації у випадку багатофакторної регресії ідентичний коефіцієнту детермінації простої лінійної регресії:
. (13)
Розглянемо вибіркову багатофакторну модель
, (14)
де
- оцінка фактичного
значення, або прогнозне чи теоретичне значення.
Замінюючи на
його вираз через середні значення
і підставляючи даний вираз у (14), отримаємо:
(15)
Замінюємо на
, а
на
, тоді (15) можна
переписати у вигляді:
(16)
Піднесемо обидві частини (16) до квадрата і просумуємо за всіма значеннями. Отримаємо:
(17)
Виходячи з позначень, які ми раніше вводили для простої лінійної регресії, отримаємо:
(18)
де
;
;
Тепер легко можна побачити, що, як і у випадку простої лінійної регресії, коефіцієнт детермінації дорівнює:
(19)
КОЕФІЦІЄНТ ДЕТЕРМІНАЦІЇ R2 ТА ОЦІНЕНИЙ КОЕФІЦІЄНТ
ДЕТЕРМІНАЦІЇ
Важливою властивістю коефіцієнта детермінації R2 є те, що він – неспадна функція від кількості факторів, які входять до моделі. Якщо кількість факторів зростає, то R2 також зростає і ніколи не зменшується.Тобто, якщо ми додаємо новий фактор у регресійну модель, це тільки збільшує значення коефіцієнта детермінації R2, що легко побачити з його визначення:
(20)
У виразі (20) знаменник не залежить від кількості
факторів х, тоді як чисельник, навпаки, залежить. Інтуїтивно можна
зрозуміти, що якщо кількість факторів х зростає, величина спадає (або хоча б не
зростає). Якщо ми порівнюватимемо дві регресійні моделі з однаковою залежною
змінною, але різною кількістю факторів х, то, звичайно, віддамо перевагу тій,
яка має більше значення R2.
Зразу ж постає питання, що робити, якщо ми хочемо порівняти значення коефіцієнтів детермінації в різних моделях. У таких випадках потрібно коригувати коефіцієнт кореляції з урахуванням кількості факторів х, які входять у різні моделі, тобто зменшити вплив залежності значення коефіцієнта детермінації від кількості факторів. Для цього вводиться спеціальний коефіцієнт детермінації, який має вигляд:
, (21)
де k – кількість параметрів регресійної моделі, включаючи перетин.
На відміну від простого коефіцієнта детермінації, оцінений коефіцієнт детермінації корегується з урахуванням ступенів вільності суми квадратів залишків та загальної суми квадратів. Як бачимо у виразі (2), суми квадратів у чисельнику та знаменнику діляться на відповідні ступені вільності, в яких ураховується кількість факторів, що входять до моделі.
Вираз (21) можна записати ще таким чином:
, (22)
де - оцінена дисперсія залишків;
- вибіркова дисперсія незалежної змінної у.
Легко помітити, що оцінений коефіцієнт детермінації та коефіцієнт детермінації
пов’язані
між собою такою залежністю:
(23)
З виразу (23) видно, якщо k
> 1, то .
Крім того, якщо кількість факторів х зростає, оцінений коефіцієнт
детермінації зростає повільніше, ніж просто коефіцієнт детермінації. Таким
чином, зменшується вплив кількості факторів на величину коефіцієнта
детермінації, тому на практиці більше використовують оцінений коефіцієнт
детермінації, особливо при порівнянні різних регресійних моделей. Слід
зазначити, що оцінений коефіцієнт детермінації може бути і негативним, на
відміну від R2, який
має позитивне значення. Крім того, коли
оцінений коефіцієнт
кореляції також дорівнює одиниці. Коли
прямує до негативної
величини,
прямує до нуля.
Для того, щоб розібратись, як на практиці порівнюють значення коефіцієнтів детермінації в різних моделях, розглянемо приклад. Ще раз нагадаємо, що порівняти значення двох або більше коефіцієнтів детермінації (оцінених або ні) можна лише за однакових залежних змінних, які можуть набирати різних функціональних форм.
Наприклад, нехай ми маємо такі дві моделі:
(24)
(25)
Розрахованні коефіцієнти детермінації в цих моделях не
можна порівняти між собою. Пояснимо чому. За означенням, коефіцієнт
детермінації є частиною дисперсії, що пояснює регресію в загальній дисперсії
(дисперсії залежної змінної). Таким чином, коефіцієнт детермінації моделі (24)
вимірює частку дисперсії
,
яку можна пояснити факторами
тоді
як у моделі (25) він вимірює частку дисперсії у. Але це не одне й те
саме. Зміна в
забезпечує
відносну зміну у, тоді як зміна в самому у є абсолютною зміною.
Таким чином, величина
не буде
дорівнювати величині
.
Справді, відповідні коефіцієнти детермінації дорівнюватимуть для моделі (25):
, (26)
а для моделі (24):
, (27)
Знаменники у (26) та (27) різні, отже, коефіцієнти
детермінації порівняти не можна. Як бути у такому разі? Для того, щоб порівняти
коефіцієнти детермінації регресійних моделей (24) та (25), необхідно, по-перше,
знайти за моделлю (24),
обчислити антилогарифм; по-друге, розрахувати коефіцієнт детермінації між
антилогарифмом та значенням
.
Знайдений таким чином коефіцієнт детермінації можна
порівнювати з коефіцієнтом детермінації регресійної моделі
(25).
Можна піти і зворотним шляхом: обчислити за моделлю
(24) розрахувати
, обчислити
за формулою (13), а
його в свою чергу можна порівнювати з
, знайденим для моделі
(25).
ANOVA-ДИСПЕРСІЙНИЙ АНАЛІЗ
Елементарна ANOVA-таблиця у випадку багатофакторної регресії має такий вигляд (табл. 1).
Таблиця 1
Джерело варіації |
Суми квадратів |
Ступені вільності |
Середні квадрати |
Модель |
|
|
|
Помилка |
|
|
|
Загальне |
|
|
|
де k – кількість параметрів регресійної моделі, включаючи перетин.
З ANOVA-таблиці
можна легко отримати вираз як для простого коефіцієнта детермінації , так і для оціненого.
Для цього спочатку ще раз пригадаємо формулу розподілу сум квадратів та вираз для коефіцієнта детермінації:
(28)
; (29)
. (30)
З ANOVA-таблиці дисперсійного аналізу (табл. 1) видно, що у
випадку багатофакторної регресії сума квадратів залишків має ступенів вільності, а
загальна сума квадратів
ступенів
вільності.
Оцінений, як ми вже показували раніше, коефіцієнт детермінації – це коефіцієнт, у якого відповідні суми квадратів скориговані на їхні ступені вільності, тобто:
(31)
ПЕРЕВІРКА МОДЕЛІ НА АДЕКВАТНІСТЬ ЗА F-КРИТЕРІЄМ
ФІШЕРА
Для перевірки адекватності багатофакторної регресійної моделі, як і у випадку простої лінійної моделі, використовується F-критерій Фішера.
При цьому нуль-гіпотеза узагальнюється і має вигляд:
проти
альтернативної гіпотези хоча
б одне значення
відмінне
від нуля.
Якщо нуль-гіпотеза не правильна, то тоді
правильна гіпотеза
, тобто не
всі параметри незначною мірою відрізняються від нуля, що дає підставу вважати,
що відібрані фактори пояснюють зміну залежної величини у. Для перевірки
-гіпотези
розраховується F-статистика Фішера з р та
ступенями вільності:
. (32)
де р – кількість факторів, які увійшли в модель; n – загальна кількість спостережень.
За F-таблицями
Фішера, як і у випадку простої регресії, знаходимо критичне значення з р та
ступенями вільності,
задавши попередньо рівень помилки
(або
рівень довіри
).
Якщо ,
тоді нуль-гіпотеза відкидається, що свідчить про адекватність побудованої
моделі. У протилежному випадку вона приймається і модель вважається
неадекватною.
Зв’язок між коефіцієнтом детермінації та
F-відношенням Фішера.
Покажемо, що між коефіцієнтом детермінації та F-відношенням
Фішера є зв’язок. Розпишемо вираз (32), попередньо замінивши р на
, а
на
, де k – кількість
параметрів, включаючи перетин.
Зазначимо, що ступені вільності ми виразили через кількість параметрів моделі, що підлягають оцінці. Виходячи з (32), отримаємо:
(33)
де
Рівняння (33) показує, що F-відношення
та коефіцієнт детермінації пов’язані
між собою. Коли
, то F
також дорівнює 0.Таким чином , F-тест, який є мірою
адекватності регресійної моделі, є також мірою статистичної значимості
коефіцієнта детермінації R2.
Використовуючи (33), можемо тестувати адекватність моделі, виходячи лише з одного відомого значення R2, що значно полегшує розрахунки. Розглянемо такий випадок детальніше.
Тестування адекватності багатофакторної регресійної моделі, виходячи із значення R2
Нехай нам відоме значення коефіцієнта детермінації Для того, щоб
перевірити модель на адекватність, протестуємо нуль-гіпотезу.
проти альтернативної гіпотези Н1: не всі параметри одноразово дорівнюють 0.
Насамперед потрібно розрахувати F-відношення Фішера. Розрахуємо його тільки на підставі відомого значення коефіцієнта детермінації за формулою (33):
За F-таблицями Фішера знаходимо яке є критичним
значенням F при заданому рівні помилки a та відповідно
і
ступенями вільності.
Якщо тоді
відкидаємо гіпотезу Н0, у протилежному випадку ми приймаємо
її. Отже, тестуємо адекватність моделі, використовуючи тільки коефіцієнт
детермінації.
МАТРИЧНИЙ ПІДХІД ДО ЛІНІЙНОЇ БАГАТОФАКТОРНОЇ
РЕГРЕСІЇ
Запис лінійної багатофакторної у матричному вигляді
Лінійну багатофакторну модель, як і основні проблеми регресійного аналізу, зручно розглядати за допомогою теорії матриць.
Запишемо модель (1) для кожного окремого спостереження:
(34)
де - і-е значення
залежної змінної;
невідомі
параметри;
і-е
значення j-го фактора;
;
- і-е
значення випадкової величини.
Рівняння (34) є скороченим записом такої системи:
(35)
-
вектор-стовпець розмірності
спостережень
за незалежною змінною у;
-
матриця розмірності
n спостережень
за р змінними
де перший
стовпець вміщує значення 1 для отримання перетину. Матриця Х ще
називають матрицею спостережень.
-
вектор розміру
невідомих
параметрів.
-
вектор розміру
n випадкових
величин
.
Виходячи з введених позначень для (35), отримаємо:
(36)
Вираз (36) зручно переписати у вигляді:
(37)
Вираз (37) є записом простої лінійної багатофакторної регресії у матричному вигляді.
Припущення класичної лінійної багатофакторної
регресії у матричному вигляді
Математичне сподівання і-го значення випадкової величини eі
дорівнює нулеві, або вектор випадкових величин дорівнює нулеві
:
(38)
Випадкові величини незалежні між собою. У матричному вигляді це можна записати таким чином:
(39)
де - транспланований
вектор-стовпець випадкових величин, тобто вектор-рядок.
Розписавши (39), отримаємо:
(40)
Застосовуючи оператор математичного сподівання до кожного елемента матриці, з огляду на властивості гомоскедастичності та відсутність зв’язку між випадковими величинами отримаємо:
(41)
де
І – одинична матриця розмірності .
Матриця (40) або інший її вигляд (41) називається
дисперсійно-коваріаційною матрицею випадкових величин . Діагональні елементи
цієї матриці – дисперсії, а всі інші – коваріації. Зазначимо, що
дисперсійно-коваріаційна матриця симетрична відносно своєї головної діагоналі.
Матриця Х розміру не стохастична, тобто
вона утворюється з фіксованих елементів
Відсутність мультиколінеарності означає, що ранг
матриці Х дорівнює ,
тобто кількість стовпців матриці. А це означає, що стовпці матриці
лінійно незалежні, тобто немає лінійного зв’язку між х змінними, отже,
не знайдеться таких чисел
серед
яких не всі дорівнюють нулеві, аби виконувалась тотожність
,
або в матричному відображенні
Вектор випадкових величин має нормальний закон
розподілу
Припущення щодо однакової дисперсії випадкових величин уже знайшло своє матричне відображення у припущенні 2.