Однофакторний дисперсионный, кореляционный, регрессионный анализ
Спецификация модели парной линейной регрессии
В случае парной регрессии рассматривается один объясняющий фактор: через
обозначим изучаемый эконометрический показатель; через
– объясняющий фактор. Эконометрическая модель парной регрессии имеет следующий вид
, (1)
где
– неизвестная функциональная зависимость (теоретическая регрессия);
– возмущение, случайное слагаемое, представляющее собой совокупное действие не включенных в модель факторов, погрешностей.
Основная задача эконометрического моделирования – построение по выборке эмпирической модели, выборочной парной регрессии
, являющейся оценкой теоретической регрессии (функции
):
, (2)
здесь
– эмпирическая (выборочная) регрессия, описывающая усредненную по
зависимость между изучаемым показателем и объясняющим фактором. После построения выборочной регрессии обычно производится верификация модели – проверка статистической значимости и адекватности построенной парной регрессии имеющимся эмпирическим данным.
Экспериментальная основа построения парной эмпирической регрессии – двумерная выборка:
, где
– объем выборки (объем массива экспериментальных данных).
Основная задача спецификации модели парной регрессии – выбор вида функциональной зависимости. В случае парной регрессии обычно рассматриваются функциональные зависимости следующего вида
– линейная; (3)
– параболическая; (4)
– гиперболическая; (5)
– показательная; (6)
– степенная, (7)
а также некоторые другие. Заметим, что функциональные зависимости (3), (4) и (5) линейны по своим параметрам
и
.
Основные методы выбора функциональной зависимости
:
1) геометрический;
2) эмпирический;
3)
![]() |
аналитический.
Геометрический метод выбора функциональной зависимости сводится к следующему. На координатной плоскости
наносятся точки
, соответствующие выборке. Полученное графическое изображение называется полем корреляции (диаграммой рассеяния).
Исходя из получившейся конфигурации точек, выбирается наиболее подходящий вид параметрической функциональной зависимости
. На рис. 1 приведен пример поля корреляции для некоторой выборки объемом 11 наблюдений (каждому наблюдению соответствует одна точка) с графиками двух функциональных зависимостей – линейной функции и параболы.
Эмпирический метод состоит в следующем. Выбирается некоторая параметрическая функциональная зависимость
(см., например, (3–7)). Для построения по выборке оценки
этой зависимости чаще всего используется метод наименьших квадратов (МНК). Согласно методу наименьших квадратов значения параметров функции
(будем обозначать их через
,
) выбираются таким образом, чтобы сумма квадратов отклонений выборочных значений
от значений
была минимальной
, (8)
минимум ищется по параметрам
, которые входят в зависимость
.
Найденные значения параметров, которые минимизируют указанную сумму квадратов разностей, называются оценками неизвестных параметров регрессии по методу наименьших квадратов (оценками МНК). Выборочная регрессия
(или
), в которую подставлены найденные значения, уже не содержит неизвестных параметров и является оценкой теоретической регрессии. Именно эту зависимость
будем рассматривать как эмпирическую усредненную зависимость изучаемого показателя от объясняющего фактора.
После нахождения эмпирического уравнения регрессии вычисляются значения
и остатки
,
. По величине остаточной суммы квадратов
можно судить о качестве соответствия эмпирической функции
имеющимся в наличии статистическим наблюдениям. Перебирая разные функциональные зависимости и каждый раз действуя подобным образом, можно практически подобрать наиболее подходящую функцию для описания имеющихся данных.
Аналитический метод сводится к попытке выяснения содержательного смысла зависимости изучаемого показателя от объясняющего фактора и последующего выбора на этой основе соответствующей функциональной зависимости. Так, если
– расходы фирмы,
– объем выпущенной продукции за месяц, то нетрудно получить следующую модель зависимости расходов от объема выпущенной продукции:
,
где
– условно-постоянные расходы,
– условно-переменные расходы.
В практике эконометрического анализа часто используют линейную парную регрессию. В модели парной линейной регрессии зависимость (1) между переменными представляется в виде
, (9)
т. е. теоретическая регрессия имеет вид (3).
На основе выборочных наблюдений оценка теоретической регрессии – выборочная (эмпирическая) регрессия
строится в виде:
, (10)
где
,
являются оценками параметров
,
теоретической регрессии.
Оценка параметров. Метод наименьших квадратов.
Рассматривается модель парной линейной регрессии
.
На основе эмпирических наблюдений построим оценку теоретической регрессии – найдем выборочное уравнение регрессии
.
Оценки
,
параметров
,
определяются по методу наименьших квадратов из соотношения:
, (1)
т. е.
,
выбираются таким образом, чтобы сумма квадратов отклонений наблюдаемых (выборочных) значений показателя
от расчетных
была минимальной.
Вычисляя производные по параметрам
,
и приравнивая их к нулю, приходим к следующей системе из двух уравнений (система нормальных уравнений):
,. (2)
Решение этой системы уравнений называется оценкой неизвестных параметров по методу наименьших квадратов, его можно найти по формулам:
(3)
где
,
,
,
.
Таким образом, парная эмпирическая линейная регрессия имеет вид:
, (4)
где коэффициенты
и
определяются по формуле (3).
Коэффициенту
при объясняющем факторе
в парной линейной регрессии можно дать естественную экономическую интерпретацию. Коэффициент
показывает, на какую величину изменяется в среднем изучаемый эконометрический показатель при увеличении объясняющего фактора на одну единицу.
Нетрудно найти значения показателя, рассчитанные по выборочной линейной регрессии для тех значений объясняющего фактора, которые содержатся в выборке:
,
. (5)
Особое значение для проверки статистической значимости парной линейной регрессии имеют остатки (разности между истинными значениями показателя и значениями, вычисленными по уравнению линейной регрессии):
,
. (6)
Основные предположения регрессионного анализа
Основные предположения регрессионного анализа относятся к случайной компоненте
и имеют решающее значение для правильного и обоснованного применения регрессионного анализа в эконометрических исследованиях.
В классической модели регрессионного анализа предполагаются выполненными следующие предпосылки (условия Гаусса-Маркова):
Условие Величины
являются случайными.
Условие 1.5.2. Математическое ожидание возмущений равно нулю:
.
Условие 1.5.3. Возмущения
и
некоррелированы:
,
.
Условие 1.5.4. Дисперсия возмущения
одна и та же для каждого наблюдения
:
. Это условие одинаковости дисперсий возмущений называется условием гомоскедастичности. Нарушение этого условия называется гетероскедастичностью.
Условие 1.5.5. Величины
взаимно независимы со всеми значениями объясняющих переменных
. Обычно считают, что объясняющие переменные являются неслучайными величинами.
Здесь, во всех условиях
.
Эти предпосылки образуют первую группу предпосылок, необходимых для проведения регрессионного анализа в рамках классической модели.
Вторая группа предпосылок дает достаточные условия для обоснованного проведения проверки статистической значимости эмпирических регрессий:
Условие 1.5.6. Совместное распределение случайных величин
является нормальным.
При выполнении предпосылок первой и второй групп случайные величины
оказываются взаимно независимыми, одинаково распределенными случайными величинами, подчиняющимися нормальному распределению с нулевым математическим ожиданием и дисперсией
. Модель (9), удовлетворяющая приведенным выше условиям 1.5.1–1.5.6, называется классической нормальной линейной моделью парной регрессии.
Статистические свойства оценок. Теорема Гаусса-Маркова
Справедлива теорема:
Теорема (Гаусса-Маркова) Если регрессионная модель
удовлетворяет условиям 1.5.1–1.5.5, то оценки МНК
и
(3) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Заметим, что после построения уравнения выборочной регрессии, наблюдаемые значения
можно представить в виде
, (1)
где
, коэффициенты
,
определяются по формуле (3). Остатки
являются, в отличие от возмущений
, наблюдаемыми величинами, с помощью которых можно оценить воздействие неучтенных факторов и ошибок наблюдений. Говорят, что
является выборочной оценкой возмущения
.
Можно показать, что статистика (выборочная остаточная дисперсия), определяемая с помощью остатков
(см. (6)):
(2)
является несмещенной оценкой дисперсии
– дисперсии возмущений (теоретической остаточной дисперсии).
При выполнении условий Гаусса-Маркова первой и второй групп (1.5.1–1.5.6) справедливы утверждения:
Утверждение 1. Статистика
распределена по закону Стьюдента с
степенями свободы, здесь
, (3)
представляет собой стандартную ошибку коэффициента
,
– выборочная дисперсия
.
Утверждение 2. Статистика
распределена по закону Стьюдента с
степенями свободы, здесь
, (4)
представляет собой стандартную ошибку коэффициента
,
– выборочная дисперсия
.
Утверждение 3. Если
и
некоррелированы, то статистика
(5)
распределена по закону Стьюдента с
степенями свободы. Здесь
– теоретический коэффициент парной корреляции,
– выборочный коэффициент парной корреляции:
, (6)
где
,
– выборочные дисперсии
и
соответственно,
– выборочная ковариация между
и
.
Показатели качества регрессии.
Коэффициент детерминации. Коэффициент парной корреляции
Коэффициент детерминации является одной из наиболее эффективных оценок адекватности регрессионной модели, т. е. мерой качества уравнения регрессии (соответствия регрессионной модели эмпирическим данным).
После построения выборочного уравнения регрессии, как уже указывалось выше в пункте 1.6.1, значение зависимой переменной
в каждом наблюдении можно разложить на две составляющие:
,
здесь остаток
представляет собой ту часть зависимой переменной
, которую невозможно «объяснить» с помощью выборочной регрессии. Можно показать, что выборочная дисперсия наблюдений
может быть представлена в виде суммы:
, (1)
в которой первое слагаемое
представляет собой часть, «объясненную» регрессионным уравнением (или обусловленную регрессией), а второе слагаемое
– «необъясненную» часть, характеризующую влияние неучтенных факторов и т. п. Необходимо заметить, что такое разложение справедливо только в том случае, когда в уравнение регрессии включена константа
, при этом
.
Разложение (1) часто записываю в следующем виде:
, (1)
где
представляет собой общую сумму квадратов отклонений зависимой переменной от средней,
есть сумма квадратов отклонений, обусловленная регрессией, а
– остаточная сумма квадратов.
Коэффициент детерминации определяется по формуле:
. (3)
Величина
, как видно из формул (1) и (3), представляет собой часть (долю) вариации (разброса, дисперсии) зависимой переменной, обусловленную («объясненную») уравнением регрессии (иногда говорят – обусловленную вариацией объясняющей переменной).
Свойства коэффициента детерминации:
Свойство 1.
;
Свойство 2. Чем ближе
к единице, тем лучше регрессия аппроксимирует эмпирические данные, т. е. эмпирические наблюдения ближе к линии выборочной регрессии. Если
, то между
и
есть линейная функциональная зависимость, в этом случае все эмпирические точки наблюдений лежат на прямой регрессии;
Свойство 3. Если
, то в этом случае вариация зависимой переменной полностью обусловлена случайными воздействиями и линия выборочной регрессии параллельна оси
.
Заметим, что коэффициент детерминации
имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии, так как лишь в этом случае справедливо равенство (1).
Оценка качества соответствия выборочного равнения регрессии наблюдаемым данным может производиться и с помощью средней ошибки аппроксимации регрессии по формуле:
. (4)
Как указывают некоторые авторы, в практических исследованиях значение этой ошибки в пределах 5–7 % свидетельствует о хорошем соответствии модели эмпирическим данным.
Коэффициент регрессии
, как уже отмечалось выше, показывает, на сколько единиц в среднем изменяется значение показателя
, когда фактор
увеличивается на одну единицу, поэтому он также может служить мерой тесноты связи между
и
. Однако
зависит от единиц измерения переменных. Именно поэтому удобно использовать некоторую «стандартную» систему единиц измерения тесноты связи, в которой различные данные были бы сравнимы между собой. В качестве единиц измерения такой системы используется среднее квадратическое отклонение переменных, а показателем тесноты связи служит коэффициент корреляции.
Действительно, используя понятия выборочных дисперсий, ковариации и корреляции, оценки МНК можно записать специальным образом:
,
, (5)
где
,
– выборочные средние,
,
– выборочные дисперсии,
– выборочный коэффициент корреляции (см. (5)).
Следовательно, парная эмпирическая линейная регрессия может быть записана в виде:
. (6)
Таким образом, величина
(7)
показывает, на сколько величин
изменится (в среднем)
, если
увеличится на одно
, поэтому выборочный коэффициент корреляции
также является показателем тесноты связи (более точно – характеризует тесноту линейной зависимости) между переменными.
Выборочный коэффициент корреляции является безразмерной величиной и обладает следующими свойствами:
Свойство 1.
;
Свойство 2. При
корреляционная зависимость представляет собой линейную функциональную зависимость (все наблюдаемые значения располагаются на прямой линии регрессии);
Свойство 3. При
линейная корреляционная связь отсутствует (линия регрессии параллельна оси
).
Заметим, что выборочный коэффициент корреляции
полностью оценивает тесноту связи только в случае совместного нормального распределения случайных величин
и
, в других случаях выборочный коэффициент корреляции является оценкой меры только линейной зависимости.
Практически наиболее удобна следующая формула вычисления
(которая непосредственно может быть получена из определения):
. (8)
В случае парной линейной регрессии между коэффициентом детерминации
и коэффициентом корреляции
существует следующая связь:
. (9)
Проверка статистической значимости
в парной линейной регрессии
Проверка значимости (статистической) уравнения регрессии означает проверку соответствия модели, выражающей зависимость между переменными, экспериментальным данным, а также проверку достаточности включенных в уравнение объясняющих переменных для описания зависимой переменной.
Правило проверки статистической значимости оценок
и
основывается на статистических свойствах оценок МНК и проверке статистических гипотез
и
. Невозможность отклонения нулевой гипотезы означает статистическую незначимость соответствующего коэффициента и наоборот, отклонение нулевой гипотезы по сравнению с альтернативной означает, что соответствующий коэффициент статистически значим.
Как всегда, проверка статистических гипотез осуществляется при некотором уровне значимости. В практических эконометрических исследованиях наиболее часто используются 5 и 1 %-ный уровни значимости. Выбор того или иного уровня значимости определяется исследователем.
Напомним, что если нулевая гипотеза отклоняется при 1 %-ном уровне значимости, то она автоматически отклоняется и при 5 %-ном уровне.
Если нулевая гипотеза принимается при 5 %-ном уровне значимости, то она принимается и при 1 %-ном уровне.
Если же при 5 %-ном уровне значимости нулевая гипотеза отклоняется, то необходимо проверить ее при 1 %-ном уровне, и если при этом уровне она принимается, то результаты проверки гипотезы приводятся для двух уровней значимости.
Правило проверки значимости коэффициента ![]()
Статистика
при выполнении гипотезы
распределена по закону Стьюдента с
степенями свободы.
Из таблицы распределения Стьюдента с
степенями свободы по заданному уровню значимости выбирается значение
как критическая точка, соответствующая двусторонней критической области. Тогда:
1) если
, то гипотезу
следует отклонить и, следовательно, признать коэффициент
статистически значимым;
2) если
, то гипотезу
следует принять и, следовательно, признать коэффициент
статистически незначимым.
Правило проверки значимости коэффициента ![]()
Статистика
при выполнении гипотезы
распределена по закону Стьюдента с
степенями свободы.
Из таблицы распределения Стьюдента с
степенями свободы по заданному уровню значимости выбирается значение
как критическая точка, соответствующая двусторонней критической области. Тогда:
1) если
, то гипотезу
следует отклонить и, следовательно, признать коэффициент
статистически значимым;
2) если
, то гипотезу
следует принять и, следовательно, признать коэффициент
статистически незначимым.
Правило проверки значимости
коэффициента корреляции ![]()
Статистика
при выполнении гипотезы
(т. е. при отсутствии корреляционной связи, здесь
– генеральный коэффициент корреляции) распределена по закону Стьюдента с
степенями свободы.
Из таблицы распределения Стьюдента с
степенями свободы по заданному уровню значимости выбирается значение
как критическая точка, соответствующая двусторонней критической области. Тогда:
1) если
, то гипотезу
следует отклонить и, следовательно, признать коэффициент
статистически значимым;
2) если
, то гипотезу
следует принять и, следовательно, признать коэффициент
статистически незначимым.
Проверка значимости коэффициента
одновременно является проверкой значимости парной линейной регрессии в целом. Еще один способ проверки значимости парной линейной регрессии основан на коэффициенте детерминации
и статистике, распределенной по закону Фишера с числом степеней свободы числителя, равном 1, и числом степеней свободы знаменателя, равном
.
Правило проверки значимости линейной регрессии
в целом (гипотезы
) с использованием
статистики
Если выполнены предпосылки регрессионного анализа, то при выполнении гипотезы
(что означает отсутствие взаимосвязи между
и
, а также статистическую незначимость построенной парной регрессии) статистика
распределена по закону Фишера с числом степеней свободы числителя, равном 1, и числом степеней свободы знаменателя, равном
.
По таблице распределения Фишера-Снедекора при заданном уровне значимости определяется значение
как критическая точка при числе степеней свободы числителя, равном 1, и числе степеней свободы знаменателя, равном
. Тогда:
1) если
, то гипотезу
следует отклонить и, следовательно, признать построенное уравнение линейной регрессии статистически значимым;
2) если
, то гипотезу
следует принять и, следовательно, признать построенное уравнение статистически незначимым.
Взаимосвязь критериев
В случае парного регрессионного анализа оба способа проверки статистической значимости (использование
-критерия проверки значимости коэффициента
и
-критерия проверки значимости уравнения в целом) равносильны, т. к. можно показать, что соответствующие статистики связаны между собой следующим образом
.
Кроме того,
.
Доверительные интервалы для параметров регрессии
Учитывая статистические свойства оценок МНК, можно построить доверительные интервалы для параметров
и
с заданным уровнем доверия, в качестве которого на практике обычно выбирают вероятность 0,95 (соответствующую уровню значимости 5 %).
По таблицам распределения Стьюдента c
степенями свободы для заданного уровня значимости определяется значение
, соответствующее двусторонней критической области, тогда
(1)
есть доверительный интервал для
с заданным уровнем доверия, здесь
– стандартная ошибка коэффициента
(см. (2)).
Аналогично для коэффициента
:
(2)
есть доверительный интервал для
с заданным уровнем доверия, здесь
– стандартная ошибка коэффициента
(см. (3)).
Доверительный интервал прогноза
для парной линейной регрессии
Точечный прогноз
согласно уравнению выборочной линейной парной регрессии для значения
вычисляется по формуле
. (3)
Доверительный интервал для условного математического ожидания
имеет вид:
,
где стандартная ошибка условного математического ожидания
вычисляется по формуле
, (4)
а значение
определяется для выбранного уровня значимости по таблице распределения Стьюдента с
степенями свободы как критическая точка, соответствующая двусторонней области.
Доверительный интервал индивидуального значения зависимой переменной (индивидуального прогноза) для
вычисляется аналогично предыдущему интервалу с учетом рассеяния вокруг линии регрессии.
По таблице распределения Стьюдента c
степенями свободы для заданного уровня значимости определяется критическое значение
, соответствующее двусторонней области, тогда
(5)
есть соответствующий доверительный интервал прогноза индивидуального значения
в точке
, здесь стандартная ошибка индивидуального значения определяется следующим образом:
. (6)
![]() |
Нетрудно видеть, что чем дальше
от
, тем шире доверительный интервал прогноза, или, другими словами, тем выше погрешность прогноза
Выводы
· Эконометрика – это наука, в рамках которой на базе реальных статистических данных строятся, анализируются и совершенствуются математические модели экономических явлений. Эконометрика позволяет найти количественное подтверждение либо опровержение экономического закона, либо гипотезы. Одним из важнейших направлений эконометрики является построение прогнозов по различным экономическим показателям.
· Модель парной линейной регрессии является наиболее распространенным (и простым) уравнением зависимости между экономическими переменными. Метод наименьших квадратов дает наилучшие (в определенном смысле) оценки параметров регрессии. Решающее значение для правильного и обоснованного применения регрессионного анализа в эконометрических исследованиях имеет выполнение условий Гаусса–Маркова.
· Необходимым элементом эконометрического анализа является проверка статистической значимости полученных оценок коэффициентов, а также всего уравнения регрессии в целом. В качестве показателя качества регрессии может использоваться коэффициент детерминации.
· При использовании парной линейной регрессии для построения прогнозов необходимо учитывать доверительные интервалы прогноза и параметров регрессии.
Вопросы для самопроверки
1. Что такое генеральная совокупность и выборка?
2. Как вычисляются основные выборочные числовые характеристики: выборочные среднее, дисперсия, среднее квадратическое отклонение?
3. Как вычисляется выборочный коэффициент корреляции?
4. Приведите основные свойства выборочного коэффициента корреляции.
5. В чем различие между точечными и интервальными оценками?
6. Дайте определения эффективности, несмещенности и состоятельности оценок.
7. В чем состоит общая схема проверки статистической гипотезы? Какова ее цель?
8. Что такое уровень значимости?
9. Как определяются распределения Стьюдента, Фишера, хи-квадрат?
10. Каковы основные этапы эконометрического моделирования?
11. Опишите эконометрическую модель, приводящую к парной линейной регрессии.
12. Какова эмпирическая основа построения выборочной парной регрессии?
13. Назовите основные причины присутствия в регрессионной модели случайного слагаемого (возмущения).
14. Что понимается под спецификацией модели, и как она осуществляется?
15. Приведите примеры функциональных зависимостей, используемых в парных регрессиях.
16. В чем состоит отличие теоретического и эмпирического уравнений регрессии?
17. В чем суть МНК?
18. Докажите справедливость формул вычисления МНК оценок параметров парной линейной регрессии.
19. Почему регрессию (в частности, парную линейную) называют усредненной эмпирической зависимостью?
20. Дайте интерпретацию уравнению регрессии
, где
– объем продукции (в млн руб),
– объем инвестиций в ИТ технологии (в сотнях тыс. долларов).
21. Чем отличаются возмущения
от остатков
?
22. В чем состоят основные предпосылки регрессионного анализа?
23. Как связаны коэффициенты линейной регрессии с выборочным коэффициентом корреляции?
24. Докажите формулы 1.7.3.
25. Как определяются стандартные ошибки регрессии и коэффициентов регрессии?
26. Что является несмещенной оценкой дисперсии возмущений? Приведите формулу.
27. Укажите статистики, распределенные по закону Стьюдента в парной линейной регрессии.
28. Каким образом можно оценить качество уравнения регрессии?
29. Как связаны между собой коэффициент парной корреляции и коэффициент детерминации?
30. Является ли значимым коэффициент выборочный корреляции
, если он получен по выборке объемом
?
31. В чем суть статистической значимости коэффициентов регрессии? Сформулируйте правило проверки статистической значимости коэффициентов парной линейной регрессии.
32. В чем состоит идея проверки статистической значимости уравнения регрессии в целом? Сформулируйте правило проверки.
33. Как связаны между собой критерии проверки статистической значимости в парном регрессионном анализе?
Упражнения
Решение типовых задач
ТЗ 1.1. Вычислите для парной линейной регрессии значения коэффициентов детерминации
и корреляции
, если известно, что
,
,
,
,
,
,
,
. Проверьте значимость
. Вычислите коэффициенты выборочной парной линейной регрессии. Проверьте статистическую значимость коэффициента
. Постройте для него доверительный интервал. Постройте прогноз для значения
и доверительные интервалы прогноза.
Решение
Для вычисления коэффициента детерминации воспользуемся определением:
.
Так как
, то
.
Для проверки статистической значимости коэффициента корреляции вычислим значение
-статистики коэффициента корреляции:
.
По таблице распределения Стьюдента с 28 степенями свободы и для уровня значимости 5 % определяем критическое (табличное) значение:
. Так как
, то гипотезу
следует отклонить и, следовательно, признать коэффициент
статистически значимым.
Для нахождения коэффициентов выборочной парной линейной регрессии воспользуемся формулами связи коэффициентов с выборочными характеристиками:

и
.
Для того чтобы проверить статистическую значимость коэффициента регрессии, прежде всего необходимо вычислить значение выборочного остаточного среднего квадратического отклонения:
.
Теперь можно определить стандартную ошибку коэффициента:
,
с помощью которой находим соответствующую
-статистику
.
Так как
(значение
, как и раньше, взято из таблицы распределения Стьюдента при 28 степенях свободы и уровне значимости 5 %), то гипотезу
следует отклонить и, следовательно, признать коэффициент
статистически значимым.
Левая граница доверительного интервала для этого коэффициента, соответствующего уровню значимости 5 %, имеет значение
, правая граница –
.
Прогноз для значения
вычисляется непосредственной подстановкой этого значения в уравнение регрессии:
.
Стандартная ошибка прогноза функции регрессии (среднего значения)
,
а стандартная ошибка прогноза индивидуального значения
.
Тогда доверительный интервал прогноза среднего значения, соответствующий 5%-ному уровню значимости, имеет левую границу, равную
, и правую границу –
. Левая граница доверительного интервала прогноза индивидуального значения
, правая граница –
.
Задания для самостоятельного решения
1. По выборке объемом 10 наблюдений получены следующие результаты:
,
,
,
,
,
,
. Оцените коэффициент корреляции
. Проверьте его значимость.
2. Вычислите коэффициент корреляции, проверьте его статистическую значимость:
|
X |
1 |
2 |
3 |
4 |
5 |
|
Y |
0 |
2 |
3 |
5 |
6 |
3 По выборке объемом 10 наблюдений получены следующие результаты:
,
,
. Оцените по методу наименьших квадратов коэффициенты парной линейной регрессии
на
.
Вычислите коэффициенты выборочной парной линейной регрессии, если известно, что
,
,
,
,
,
.
5. По имеющимся данным оцените параметры парной линейной регрессионной зависимости
:
|
t |
1 |
3 |
6 |
|
y |
4 |
5 |
8 |
6. Вычислите для парной линейной регрессии значения коэффициентов детерминации
и корреляции
если известно, что
,
,
,
,
,
. Проверьте значимость
.
7. Вычислите для парной линейной регрессии значения коэффициентов детерминации
и корреляции
, если известно, что
,
,
,
,
,
. Проверьте значимость
.
8. Проверьте значимость выборочного коэффициента корреляции
, если известно, что
.
9. Проверьте значимость и постройте доверительные интервалы для коэффициентов парной линейной регрессии (в таблице приведены результаты расчета с помощью функции ЛИНЕЙН):
|
23,67709724 |
147,0581 |
|
2,416418105 |
28,23179 |
|
0,774210261 |
57,90167 |
|
96,00917851 |
28 |
|
321880,6662 |
93872,89 |
10. Постройте доверительный интервал прогноза условного математического ожидания (функции регрессии), если известно, что
,
,
(в таблице приведены результаты расчета с помощью функции ЛИНЕЙН):
|
23,67709724 |
147,0581 |
|
2,416418105 |
28,23179 |
|
0,774210261 |
57,90167 |
|
96,00917851 |
28 |
|
321880,6662 |
93872,89 |
11. Постройте доверительный интервал прогноза индивидуального значения, если известно, что
,
,
(в таблице приведены результаты расчета с помощью функции ЛИНЕЙН):
|
23,67709724 |
147,0581 |
|
2,416418105 |
28,23179 |
|
0,774210261 |
57,90167 |
|
96,00917851 |
28 |
|
321880,6662 |
93872,89 |
Множественная линейная регрессия
В главе рассматривается модель множественной линейной регрессии, проблемы спецификации модели, случай мультиколлинеарности. Подробно рассмотрен вопрос использования фиктивных переменных.
Спецификация модели множественной линейной регрессии
Экономические зависимости, как правило, содержат большое число одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной переменной от нескольких объясняющих переменных (факторов). Эта проблема решается при помощи множественного регрессионного анализа. Примерами подобных зависимостей являются следующие:
показатель
– расходы фирмы за месяц, фактор
– объем выпущенной продукции за месяц,
– стоимость электроэнергии в этом месяце;
· показатель
– спрос на товар, факторы:
– цена единицы товара,
– цены товаров-заменителей.
Итак, при построении множественной регрессии, в отличие от случая парной регрессии, предполагают, что имеется несколько объясняющих факторов. Пусть
– изучаемый эконометрический показатель;
– объясняющие факторы.
Эконометрическая модель множественной регрессии, имеет следующий вид:
, (1)
где
– неизвестная функциональная зависимость (теоретическая регрессия);
– случайное слагаемое (возмущение), представляющее собой совокупное действие не включенных в модель факторов, ошибки измерения.
Основная задача регрессионного анализа – построение выборочной (эмпирической) множественной регрессии
, являющейся оценкой теоретической регрессии (функции
):
, (2)
здесь
– эмпирическая (выборочная) регрессия, описывающая усредненную зависимость между изучаемым показателем и факторами. После построения выборочной множественной регрессии, так же как и в случае парной регрессии, обычно производится верификация модели – проверка статистической значимости и адекватности построенной регрессии имеющимся эмпирическим данным.
Экспериментальная основа построения выборочной множественной регрессии – многомерная выборка
,…,
, где
– объем выборки (объем массива экспериментальных данных),
– число факторов,
–
-е наблюдение объясняющей переменной
(
,
).
Одна из важных задач спецификации модели множественной регрессии заключается в выборе функциональной зависимости.
Основные методы выбора вида функциональной зависимости
в основном те же, что и в случае парной регрессии, однако в случае множественной регрессии эта задача оказывается более сложной.
Так, геометрический метод, основанный на построении поля корреляции, менее нагляден, чем в случае парной регрессии, а в ряде случаев просто неприменим, что связано с трудностями графического изображения многомерных данных.
Эмпирический метод основан на методе наименьших квадратов. Согласно этому методу значения параметров (будем обозначать их через
,
,
,…,
) функции
, которая является оценкой по выборке функции теоретической регрессии
, выбираются таким образом, чтобы сумма квадратов отклонений наблюдаемых значений
от значений
была минимальной:
, (3)
минимум ищется по параметрам
,
,
,…,
, которые входят в зависимость
.
Найденные значения параметров, которые минимизируют указанную сумму квадратов разностей отклонений, называются оценками неизвестных параметров регрессии по методу наименьших квадратов (оценками МНК). Выборочная регрессия
(или
), в которую подставлены найденные значения, уже не содержит неизвестных параметров и является оценкой теоретической регрессии. Именно эту зависимость
рассматривают как эмпирическую усредненную зависимость изучаемого показателя от объясняющих факторов.
После нахождения эмпирического уравнения регрессии вычисляются значения
и остатки
,
. По величине остаточной суммы квадратов
можно судить о качестве соответствия эмпирической функции
имеющимся в наличии выборочным наблюдениям. Перебирая разные функциональные зависимости и каждый раз действуя подобным образом, можно подобрать наиболее подходящую функцию для описания имеющихся данных.
Используя аналитический метод для анализа зависимости расходов фирмы
от объемов выпущенной продукции
, можно получить следующую модель:
,
где
– условно-постоянные расходы,
– условно-переменные расходы.
В практике эконометрического анализа часто используют линейную множественную регрессию. В модели множественной линейной регрессии зависимость (2.1.1) между переменными имеет вид
, (4)
т. е. в качестве теоретической регрессии рассматривается зависимость
.
На основе выборочных наблюдений оценка теоретической регрессии – выборочная (эмпирическая) регрессия
строится в виде:
, (5)
где
,
,
,…,
являются оценками параметров
,
,
,…,
теоретической регрессии.
Выбор объясняющих переменных
является основным моментом спецификации модели множественной линейной регрессии (иногда выбор объясняющих переменных и называют спецификацией модели). Иногда, исходя из экономической теории, предыдущих исследований, заранее известен вид зависимости, определен список объясняющих переменных. В этом случае задача состоит лишь в оценивании неизвестных параметров зависимости.
Но на практике чаще встречается случай, когда имеется достаточное число наблюдений (значений независимых переменных), но нет априорной модели, позволяющей однозначно определить состав объясняющих переменных. В этом случае используют различные эмпирические процедуры пошагового отбора факторов. Суть этих процедур в том, что сначала рассматривается только одна объясняющая переменная, имеющая с зависимой переменной
наиболее тесную корреляционную связь. На следующем шаге в регрессионную модель включается новая объясняющая переменная таким образом, чтобы улучшить «качество» модели (для проверки используется скорректированный коэффициент детерминации (5), коэффициенты частной корреляции (7), значение
-статистики (3) и т. д.). Следует иметь в виду то, что подобные пошаговые процедуры не гарантируют получение наилучшего набора факторов.
§ 2.2. Оценка параметров. Метод наименьших квадратов.
Экономическая интерпретация
Рассматривается модель множественной линейной регрессии
.
На основе эмпирических наблюдений построим оценку теоретической регрессии – найдем выборочное уравнение регрессии
.
Оценки
параметров
,
,
,…,
определяются по методу наименьших квадратов из соотношения:
, (1)
т. е. значения
выбираются таким образом, чтобы сумма квадратов отклонений наблюдаемых (выборочных) значений показателя
от расчетных значений
была минимальной.
Введем обозначения
(2)
Здесь и далее знаком
обозначается операция транспонирования матрицы.
Используя эти обозначения, модель множественной регрессии (4) может быть записана в матричной форме:
. (3)
Применяя тот же прием, что и в случае парной регрессии (вычисляем частные производные по неизвестным параметрам и приравниваем их к нулю для того, чтобы найти минимум), приходим к системе так называемых нормальных уравнений метода наименьших квадратов. В матричной форме система нормальных уравнений, решением которой является оценка
вектора параметров регрессии
, записывается следующим образом:
. (4)
Для того чтобы система (4) имела единственное решение, необходимо, чтобы матрица
была неособенной (невырожденной), т. е.
. Для этого векторы значений объясняющих переменных (т. е. столбцы матрицы
) должны быть линейно независимы, т. е. ранг матрицы должен быть равен числу ее столбцов:
.
Кроме того, должно быть выполнено условие
, другими словами, число имеющихся наблюдений каждой из объясняющих переменных должно, по крайней мере, на единицу превосходить число объясняющих переменных. На практике часто считается, что при оценивании параметров множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3 раза превосходило число оцениваемых параметров.
Итак, если матрица
невырождена, то решением системы уравнений (4) является вектор
, определяемый по формуле:
. (5)
Найденное решение – вектор
называется оценкой наименьших квадратов неизвестных параметров
.
Таким образом, эмпирическая (выборочная) множественная линейная регрессия имеет вид:
, (6)
где коэффициенты
определяются по формуле (5).
Экономическая интерпретация коэффициентов
регрессии при объясняющих переменных аналогична парной регрессии. Коэффициент
показывает, на сколько единиц изменится в среднем показатель
, если фактор
увеличится на одну единицу, в то время как остальные факторы останутся неизменными.
В матричной форме выборочное уравнение множественной линейной регрессии (6) можно записать в виде
, (7)
где
,
и
определяются в (2), вектор оценок
вычислен в соответствии с (2.2.5).
Значения показателя, вычисленные по выборочной регрессии для значений объясняющих факторов, содержащихся в выборке
,
(8)
или в матричной форме
,
где
– вектор значений объясняющих переменных (совпадает с
-й строкой матрицы
из (2)).
Особое значение для проверки статистической значимости множественной линейной регрессии имеют остатки (разности между наблюдаемыми значениями показателя и значениями, вычисленными по уравнению линейной регрессии):
,
. (9)
Основные предположения регрессионного анализа.
Теорема Гаусса-Маркова. Статистические свойства оценок
В случае множественной регрессии аналогом дисперсии случайной компоненты является ковариационная матрица вектора возмущений
:
. (1)
В матричной форме основные предпосылки (условия Гаусса-Маркова), образующие первую группу могут быть записаны следующим образом:
Условие 1. Вектор возмущений
является случайным вектором.
Условие 2. Математическое ожидание возмущений равно нулю:
(здесь
– нулевой вектор размера
).
Условия 3, 4. Возмущения некоррелированы и дисперсия возмущений постоянна:
(здесь
– единичная матрица
-го порядка).
Условие 5. Величины возмущений
взаимно независимы со значениями объясняющих переменных
(например, объясняющие переменные можно считать неслучайными величинами).
Условие 6.
.
Справедлива теорема:
Теорема (Гаусса-Маркова). Если выполнены предпосылки 1–6, то оценки метода наименьших квадратов
регрессионной модели (3) являются наиболее эффективными (в смысле минимума дисперсии линейных комбинаций оценок параметров) в классе линейных несмещенных оценок.
Вторую группу образует следующее предположение.
Условия 7.
– нормально распределенный случайный вектор.
Модель (3), удовлетворяющая условиям 1–7, называется классической нормальной линейной моделью множественной регрессии.
После построения уравнения выборочной регрессии наблюдаемые значения
можно представить в виде
, (2)
где
определяются по формуле (6). В матричной форме это представление имеет вид
,
где
– вектор остатков. Остатки
являются, в отличие от возмущений
, наблюдаемыми величинами, с помощью которых можно оценить воздействие неучтенных факторов и ошибок наблюдений.
Можно показать, что статистика (выборочная остаточная дисперсия)
(3)
является несмещенной оценкой дисперсии
.
При выполнении условий Гаусса-Маркова первой и второй групп (условия 1–7) справедливы утверждения:
Утверждение 1. Статистика
распределена по закону Стьюдента с
степенями свободы, здесь
(4)
представляет собой стандартную ошибку коэффициента
,
– первый элемент, стоящий на главной диагонали матрицы
.
Утверждение 2. Статистика
распределена по закону Стьюдента с
степенями свободы, здесь
(5)
представляет собой стандартную ошибку коэффициента
,
– (
)-й элемент, стоящий на главной диагонали матрицы
.
Показатели качества регрессии. Коэффициент детерминации. Коэффициенты парной и частной корреляции
Выборочная дисперсия наблюдений
может быть представлена в виде суммы:
, (1)
в которой первое слагаемое представляет собой часть, «объясненную» регрессионным уравнением (или обусловленную регрессией), а второе слагаемое – «необъясненную» часть, характеризующую влияние неучтенных факторов, и т. п. Аналогично формуле (2) справедливо равенство
. (2)
Здесь
представляет собой общую сумму квадратов отклонений зависимой переменной от средней,
– сумма квадратов отклонений, обусловленная регрессией, а
– остаточная сумма квадратов.
Коэффициент детерминации (множественный) является мерой качества регрессионной модели и определяется по формуле
. (3)
В матричной форме формулы для вычисления коэффициента детерминации можно записать следующим образом:
. (4)
Коэффициент детерминации характеризует долю вариации зависимой переменной, обусловленную регрессией. Чем ближе
к единице, тем лучше регрессия описывает зависимость между зависимой и объясняющими переменными.
Так как
,
, то формулу (4) для вычисления коэффициента детерминации можно записать в виде
.
В случае множественной регрессии значение
автоматически увеличивается при добавлении новых объясняющих переменных, хотя это не обязательно свидетельствует об улучшении качества регрессионной модели. Поэтому часто используют скорректированный (исправленный) коэффициент детерминации
. (5)
Из формулы (5) следуют свойства скорректированного коэффициента детерминации:
Свойство 1.
при
.
Свойство 2. При добавлении новых объясняющих переменных, (не оказывающих существенного влияния на зависимую переменную),
может и уменьшаться.
Свойство 3. Скорректированный коэффициент детерминации
увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда
-статистика для этой переменной по модулю больше единицы. Однако даже увеличение
при добавлении в модель новой объясняющей переменной не всегда означает, что коэффициент при этой переменной статистически значим.
Однако не следует абсолютизировать важность коэффициента детерминации. Существует достаточно примеров неправильно специфицированных моделей, имеющих высокие коэффициенты детерминации. Увеличение скорректированного коэффициента детерминации также не означает улучшения качества регрессионной модели. Поэтому коэффициент детерминации в настоящее время рассматривается лишь как один из ряда показателей, которые нужно проанализировать, чтобы уточнить модель.
Оценка качества соответствия выборочного уравнения регрессии наблюдаемым данным может производиться и с помощью средней ошибки аппроксимации
регрессии по формуле (4).
В многомерном случае важную роль играют частные коэффициенты корреляции. Дело в том, что коэффициенты парной корреляции могут давать ложное представление о характере и силе взаимосвязи между двумя переменными, т. к. они не учитывают влияние других переменных. Например, между двумя переменными может быть высокий положительный коэффициент корреляции не потому, что одна из них стимулирует изменение другой, а потому, что обе переменные изменяются в одном направлении под влиянием других переменных, как учтенных в модели, так и, возможно, неучтенных.
Явление ложной корреляции хорошо известно в статистической литературе. Для оценки «истинной» взаимозависимости используются коэффициенты частной корреляции, «очищенные» от влияния других факторов.
В общем случае выборочный коэффициент частной корреляции между переменными
и
(
), «очищенный» от влияния остальных
объясняющих переменных, обозначается
.
Для вычисления коэффициентов частной корреляции между объясняющими переменными составим корреляционную матрицу, состоящую из выборочных коэффициентов корреляции:
, (6)
здесь
определяется по формулам (6) и (8), причем
.
Выборочным коэффициентом частной корреляции (или просто – частным коэффициентом корреляции) между переменными
и
при фиксированных значениях остальных
переменных называется выражение
, (7)
где через
обозначены алгебраические дополнения элементов
матрицы выборочных коэффициентов корреляции
.
Значения коэффициентов частной корреляции, как и обычных выборочных коэффициентов парной корреляции, лежат в интервале
. Можно сказать, что равенство нулю коэффициента частной корреляции означает отсутствие прямого (линейного) влияния одной переменной на другую.
На практике вычисление частных коэффициентов корреляций между переменными упрощается с использованием матрицы
, обратной к матрице выборочных коэффициентов корреляции
:
,
здесь
– элемент матрицы
, расположенный в
-й строке и
-м столбце.
При анализе модели множественной линейной регрессии часто необходимо вычислить коэффициент частной корреляции между зависимой переменной
и объясняющей переменной
, измеряющий влияние на
только одного фактора
и «очищенный» от влияния остальных факторов. Рассмотрим расширенную матрицу, состоящую из выборочных парных коэффициентов корреляции:
. (8)
Коэффициентом частной корреляции между зависимой переменной
и объясняющей переменной
при фиксированных значениях остальных
переменных называется выражение
, (9)
где
– алгебраическое дополнение к элементу
матрицы
,
– алгебраическое дополнение к элементу
(т. е.
),
– алгебраическое дополнение к элементу
(заметим, что
равен единице и которая находится на пересечении
-й строки и
-го столбца). На практике вычисление частных коэффициентов корреляций между зависимой переменной и объясняющими переменными упрощается с использованием матрицы
:
,
здесь
– элемент матрицы
, расположенный в первой строке и
-м столбце.
Частным коэффициентом детерминации называется квадрат частного коэффициента корреляции:
.
Частный коэффициент детерминации показывает, какая доля вариации зависимой переменной «объясняется» влиянием только переменной
. Таким образом, частный коэффициент детерминации позволяет оценить вклад каждой переменной в рассеяние зависимой переменной.
В случае двух переменных (
) коэффициенты частной корреляции между
и объясняющими переменными
и
вычисляются по формулам:
,
, (10)
где
«обычные» выборочные коэффициенты парной корреляции.
Между частными коэффициентами корреляции и коэффициентом детерминации существует тесная связь, которая выражается в следующем равенстве:
.
Для того чтобы сравнить влияние на зависимую переменную различных объясняющих переменных, особенно когда эти переменные имеют различные единицы измерения, используют также стандартизованные коэффициенты регрессии
(11)
и коэффициенты эластичности
(частные коэффициенты эластичности)
. (12)
Стандартизованный коэффициент регрессии
показывает, на сколько величин
изменится в среднем зависимая переменная
при увеличении только
-й переменной на
(ср. с (7)), а частный коэффициент эластичности
– на сколько процентов изменится в среднем
при увеличении только переменной
на 1 % и неизменных значениях остальных переменных.
Проверка статистической значимости
во множественной линейной регрессии
Правило проверки статистической значимости оценок
и
основывается на статистических свойствах оценок МНК и проверке статистических гипотез
и
. Невозможность отклонения нулевой гипотезы означает статистическую незначимость соответствующего коэффициента. Отклонение же нулевой гипотезы по сравнению с альтернативной гипотезой означает, что соответствующий коэффициент статистически значим.
Проверка статистических гипотез осуществляется при выбранном уровне значимости. На практике в эконометрических исследованиях наиболее часто используются 5 и 1 %-ный уровни значимости. Выбор того или иного уровня значимости определяется исследователем
Правило проверки значимости коэффициента ![]()
Статистика
(1)
при выполнении гипотезы
распределена по закону Стьюдента с
степенями свободы.
По таблице распределения Стьюдента с
степенями свободы по заданному уровню значимости определяется значение
как критическая точка, соответствующая двусторонней критической области. Тогда:
1) Если
, то гипотезу
следует отклонить и, следовательно, признать коэффициент
статистически значимым;
2) Если
, то гипотезу
следует принять и, следовательно, признать коэффициент
статистически незначимым.
Правило проверки значимости коэффициента
:
Статистика
(2)
при выполнении гипотезы
распределена по закону Стьюдента с
степенями свободы.
По таблице распределения Стьюдента с
степенями свободы по заданному уровню значимости определяется значение
как критическая точка, соответствующая двусторонней области. Тогда:
1) если
, то гипотезу
следует отклонить и, следовательно, признать коэффициент
статистически значимым;
2) если
, то гипотезу
следует принять и, следовательно, признать коэффициент
статистически незначимым.
Статистическая значимость множественной регрессии в целом оценивается с помощью
-критерия Фишера:
Правило проверки значимости линейной регрессии
в целом (гипотеза
)
с использованием
-критерия:
Если выполнены предпосылки регрессионного анализа, то выполнение гипотезы
означает отсутствие взаимосвязи между показателем
и факторами
, а также статистическую незначимость построенной множественной регрессии. Принятие нулевой гипотезы равнозначно также статистической незначимости коэффициента множественной детерминации
. При этом статистика
(3)
распределена по закону Фишера с числом степеней свободы числителя, равном
, и числом степеней свободы знаменателя, равном
.
По таблице распределения Фишера-Снедекора при заданном уровне значимости определяется значение
как критическая точка при числе степеней свободы числителя, равном
, и числе степеней свободы знаменателя, равном
. Тогда:
1) если
, то гипотезу
следует отклонить и, следовательно, признать построенное уравнение линейной регрессии статистически значимым;
2) если
, то гипотезу
следует принять и, следовательно, признать построенное уравнение статистически незначимым.
В отличие от случая парной регрессии, когда проверка значимости коэффициента
и проверка значимости уравнения в целом с помощью
-критерия были равносильны, для множественной регрессии ситуация более сложная. Если объясняющие переменные достаточно сильно коррелируют, то по
-тесту каждой переменная может оказаться незначимой, в то время как
-тест может показать значимость всего уравнения в целом.
Что касается проверки статистической значимости коэффициентов частной корреляции
, то ряд авторов указывает на то, что этот коэффициент, рассчитанный по выборке объема
, имеет такое же распределение, как и выборочный коэффициент корреляции
, вычисленный по
наблюдениям. Поэтому значимость коэффициента частной корреляции оценивают так же, как и «обычного» коэффициента парно й корреляции, полагая количество наблюдений равным
.
Доверительные интервалы для параметров регрессии
Учитывая статистические свойства оценок МНК, можно построить доверительные интервалы для параметров
,
с заданным уровнем доверия, в качестве которого на практике обычно выбирают вероятность 0,95 (соответствующую уровню значимости 5 %).
По таблицам распределения Стьюдента с
степенями свободы для заданного уровня значимости определяется значение
, соответствующее двусторонней критической области, тогда
(1)
есть доверительный интервал для
с заданным уровнем доверия. Здесь
– стандартная ошибка коэффициента
, которая вычисляется по формуле (4).
Аналогично
(2)
есть доверительный интервал для коэффициента
с заданным уровнем доверия. Здесь
– стандартная ошибка коэффициента
, которая вычисляется по формуле (5).
Доверительный интервал прогноза
Пусть
– вектор, составленный из значений объясняющих переменных, для которых вычисляется прогноз зависимой переменной
.
Нетрудно вычислить точечный прогноз по уравнению множественной регрессии:
. (3)
Доверительный интервал для функции регрессии (условного математического ожидания зависимой переменной
) имеет вид:
, (4)
где стандартная ошибка условного математического ожидания
вычисляется по формуле
, (5)
а значение
определяется для выбранного уровня значимости по таблице распределения Стьюдента с
степенями свободы как критическая точка, соответствующая двусторонней области.
Аналогичный доверительный интервал прогноза индивидуального значения зависимой переменной имеет вид
, (6)
где стандартная ошибка прогноза индивидуального значения зависимой переменной вычисляется по формуле
, (7)
а значение
определяется так же, как и в предыдущем случае.
Мультиколлинеарность
В практических исследованиях нередко встречается ситуация, когда
-статистики большинства оценок малы, что свидетельствует о незначимости соответствующих объясняющих переменных, т. е. построенная выборочная регрессия является «плохой». Но, в то же время, уравнение регрессии в целом может быть статистически значимо, т. е. значение
-статистики может быть достаточно большим. Одной из возможных причин этого является наличие высокой корреляции между объясняющими переменными – случай мультиколлинеарности.
Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Говорят, что мультиколлинеарность может проявляться в следующих формах:
Функциональная (полная, совершенная) форма – в этом случае, по крайней мере, между двумя объясняющими переменными существует линейная зависимость (т. е. один из столбцов матрицы
является линейной комбинацией остальных столбцов). В этом случае определитель матрицы
равен нулю, поэтому невозможно найти единственное решение системы нормальных уравнений (3) и получить оценки параметров регрессии. Следует заметить, что на практике полная коллинеарность встречается достаточно редко.
1. Стохастическая (неполная, несовершенная) форма – случай, когда хотя бы между двумя объясняющими переменными имеется достаточно высокая степень корреляции. Определитель матрицы
при этом хоть и отличен от нуля, но очень мал, т. е. матрица близка к вырожденной. Такой случай гораздо чаще встречается на практике и именно его обычно имеют в виду, говоря о мультколлинеарности.
В случае мультиколлинеарности оценки МНК формально существуют, но обладают «плохими» свойствами, т. к. вектор оценок
и дисперсии его компонент обратно пропорциональны величине определителя
. В результате стандартные ошибки коэффициентов регрессии получаются достаточно большими, и оценка их значимости по
-критерию может не иметь смысла. Несмотря на то, что свойства несмещенности и эффективности оценок остаются в силе, мультиколлинеарность в любом случае затрудняет разделение влияния объясняющих факторов на поведение зависимой переменной и делает оценки коэффициентов регрессии ненадежными.
Итак, если коротко сформулировать основные последствия мультиколлинеарности, то можно выделить следующие:
1. Большие дисперсии (стандартные ошибки) оценок. Это расширяет интервальные оценки и ухудшает их точность.
2. Уменьшаются
-статистики коэффициентов, что может привести к неоправданному выводу о несущественности влияния соответствующей объясняющей переменной на зависимую переменную.
3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к небольшим изменениям данных, т. е. они становятся неустойчивыми.
4. Затрудняется определение вклада каждой из объясняющей переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.
5. Возможно получение неверного знака у коэффициента регрессии.
Мультиколлинеарность может возникать в силу различных причин. Например, несколько переменных могут иметь общую тенденцию изменения во времени. Часто выделяют несколько наиболее характерных признаков, по которым может быть установлено наличие мультиколлинеарности. К их числу обычно относят следующие:
Признак 1. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов регрессии.
Признак 2. Оценки регрессии имеют большие стандартные ошибки, малую значимость (статистически незначимы), в то время как в целом модель является значимой, т. е. значения коэффициента детерминации
и
-статистики достаточно велики.
Признак 3. Высокие коэффициенты (частной) корреляции. На практике обычно анализируют корреляционную матрицу между объясняющими переменными. Если существуют пары переменных, имеющие высокие коэффициенты корреляции (обычно больше 0,8), то говорят о мультиколлинеарности. Наличие высокого (обычно больше 0,6) множественного коэффициента детерминации между одной объясняющей переменной и некоторой группой других переменных также свидетельствует о мультиколлинеарности.
Признак 4. Оценки коэффициентов регрессионной модели имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения.
К сожалению, не существует абсолютно точных количественных критериев, позволяющих установить наличие или отсутствие мультиколлинеарности. О наличии мультиколлинеарности также может свидетельствовать близость определителя
к нулю.
Нет однозначного ответа и на вопрос: что же делать в случае, если по всем признакам мультиколлинеарность имеется. Некоторые авторы полагают, что ответ на этот вопрос зависит от целей эконометрического исследования, и в ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы прилагать серьезные усилия по ее выявлению и устранению. Если основная задача модели – прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации
(не меньше 0,9) наличие мультиколлинеарности зачастую не сказывается на прогнозных качествах модели. Если же целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность представляется серьезной проблемой.
Несмотря на то, что единого метода устранения (или уменьшения) мультиколлинеарности, пригодного для любого случая, не существует, можно предложить несколько подходов:
1. Исключение переменных из модели. Например, из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную обычно исключают из модели. Для того чтобы избежать ошибок спецификации (т. е. не исказить содержательный смысл модели) в первую очередь выбирают исключаемую переменную исходя из экономических (теоретических) соображений. Если ни одной из переменных нельзя отдать предпочтение, то оставляют ту переменную, которая имеет наибольший коэффициент (частной) корреляции с зависимой переменной. В прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.
2. Переход к новым переменным. От исходных объясняющих переменных, связанных между собой достаточно тесной корреляционной зависимостью, можно перейти к новым переменным, представляющим собой линейные комбинации исходных. Новые переменные должны быть некоррелированными (или, по крайней мере, слабокоррелированными). Новые переменные могут быть предложены исходя из экономической теории или из формальных математических соображений. Так, например, в качестве таких переменных иногда берут главные компоненты вектора исходных объясняющих переменных.
3. Получение новых эмпирических данных. Поскольку мультиколлинеарность непосредственно зависит от выборки, то получение новой выборки или дополнительных наблюдений (увеличение объема выборки) может ослабить эту проблему.
Фиктивные переменные.
Регрессионные модели с переменной структурой
Как правило, независимые переменные в регрессионных моделях могут «непрерывно» изменяться в некоторой области. Но теория не накладывает никаких ограничений на характер объясняющих переменных, в частности некоторые переменные могут принимать лишь дискретные значения.
На практике довольно часто возникает необходимость исследовать зависимость показателя от качественного признака, имеющего несколько значений (пол, наличие образования, вкусы потребителя, время года и т. п.). Так, например, при исследовании зависимости зарплаты от различных признаков требуется принять во внимание наличие у работника высшего или специального образования и т. д. В принципе можно оценивать соответствующие зависимости по отдельности внутри каждой категории, а затем изучать различия между ними, но введение фиктивных переменных позволяет оценивать одно уравнение сразу по всем категориям.
Качественные признаки обычно существенно влияют на структуру линейных связей между переменными, в этом случае говорят о регрессионных уравнениях с переменной структурой. Влияние качественного признака в регрессионных моделях выражается с помощью фиктивной (искусственной) переменной, которая отражает различные состояния качественного фактора (в простейшем случае – противоположные состояния). Например, «фактор действует – фактор не действует», «курс валюты фиксированный – курс валюты плавающий», «сезон летний – сезон зимний», «есть высшее образование – нет высшего образования» и т. д. – в этом случае фиктивная переменная выражается в двоичной (бинарной) форме:

В англоязычной литературе по эконометрике подобные переменные называются dummy variables, что обычно переводится как «фиктивные переменные». Тем не менее, переменная
такая же «равноправная» переменная, как и любая другая «обычная» переменная. Ее «фиктивность» состоит только в том, что она количественным образом описывает качественный признак. Все статистические процедуры регрессионного анализа для модели с фиктивными переменными (оценка параметров регрессии, проверка значимости и т. д.) проводятся точно так же, как и в случае «обычных» количественных объясняющих переменных.
Например, пусть
– размер заработной платы, которая зависит от стажа работы
и наличия у работника высшего образования
, т. е. мы рассматриваем регрессионную модель:
, (1)
где
, если
-й работник не имеет высшего образования,
, если
-й работник имеет высшее образование. Таким образом, мы считаем, что средняя зарплата есть
при отсутствии высшего образования и
при его наличии. Величина
представляет собой среднее изменение зарплаты при переходе из одной категории в другую при неизменных значениях стажа работы. Тестируя гипотезу
, мы проверяем предположение о существенном влиянии фактора «наличие высшего образования» на размер заработной платы работника.
Заметим, что в модели (1) характер зависимости заработной платы от стажа работы (коэффициенты
и
) один и тот же, как для работников, имеющих высшее образование, так и не имеющих – средняя зарплата этих категорий отличается только на константу
. В то же время, если мы оценим параметры регрессионной модели отдельно по каждой из двух категорий сотрудников, то, возможно, получим различный характер зависимости заработной платы от стажа работы (эмпирические регрессии могут иметь разные коэффициенты).
Коэффициент
в модели (1) иногда называется дифференциальным коэффициентом свободного члена, т. к. он показывает, на какую величину отличается свободный член модели при значении фиктивной переменной, равном единице, от свободного члена модели при нулевом (базовом) значении фиктивной переменной.
Качественные различия можно описывать с помощью переменных, принимающих любое количество произвольных значений, но в эконометрической практике почти всегда используют двоичные переменные, принимающие значение 0 или 1, поскольку в этом случае интерпретация уравнения выглядит наиболее просто. Если признак может принимать
различных значений (градаций), то можно было бы ввести фиктивную переменную, принимающую такое же количество значений. Однако на практике обычно так не поступают из-за трудности интерпретации соответствующих коэффициентов регрессии – вместо этого вводят
бинарную переменную.
Так, в примере с зарплатой, если предположить, что образование может быть начальным, средним или высшим, то для учета фактора образования в регрессионную модель (1) вводят две бинарные переменные
и
:
,
где

Очевидно, что третьей бинарной переменной не требуется: если
-й работник имеет начальное образование, то это соответствует паре значений
,
.
Другим типичным примером является исследование сезонных колебаний. Если есть основания считать, что объем потребления
зависит от времени года, то для выявления сезонности можно ввести три бинарные переменные
,
,
:
(2)
и оценивать зависимость
. (3)
Заметим, что вводить четвертую переменную, относящуюся к осени (в примере с зарплатой – третью переменную, соответствующую начальному образованию) нельзя, иначе выполнялось бы тождество
, что означало бы линейную зависимость факторов (явление мультиколлинеарности) и, как следствие, невозможность получения оценок МНК. Такая ситуация, когда сумма фиктивных переменных тождественно равна константе, называется ловушкой фиктивных переменных (dummy trap). Поэтому, чтобы избежать такой ловушки, следуют правилу:
Правило введения фиктивных переменных. Если качественный признак имеет
альтернативных значений (градаций), то число вводимых бинарных фиктивных переменных должно быть равно
.
Фиктивные переменные, несмотря на внешнюю простоту, являются весьма мощным инструментом при исследовании влияния качественных признаков. В рассмотренных выше примерах влияние качественного признака сказывалось только на свободном члене уравнения регрессии. С помощью фиктивных переменных можно учесть и влияние качественного признака на коэффициенты при переменных регрессионной модели.
В примере (3) с сезонными различиями можно ввести независимую переменную
– доля дохода, используемая на потребление. В модели
(4)
Коэффициент
называется «склонностью к потреблению». Естественно исследовать вопрос влияния сезона и на объем потребления, и на склонность к потреблению. Для этого можно рассмотреть модель
,
где склонность к потреблению зимой, весной, летом и осенью есть
,
,
и
соответственно. Используя эту модель, можно строить оценки и проверять гипотезы о влиянии сезонных факторов на склонность к потреблению.
Фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, широко используемые для исследования влияния структурных изменений (например, новых налоговых правил, реформ и т. п.). Зависимость в этом случае может иметь вид
, (5)
где

Коэффициенты
и
в уравнении (5) называются дифференциальным свободным членом и дифференциальным угловым коэффициентом соответственно. Фиктивная переменная
используется как в аддитивном виде (
), так и в мультипликативном (
), что позволяет фактически разбивать рассматриваемую зависимость на две части, связанные с изменениями рассматриваемого в модели качественного фактора, отражающего, например, структурные изменения. Тестируя гипотезу
, мы проверяем предположение о том, что фактически структурного изменения не произошло.
Заметим, что в модели (5) использование фиктивной переменной
позволяет учесть возможное изменение характера зависимости зависимой переменной от фактора
до и после структурных изменений (при факторе
до изменений коэффициент
, после – коэффициент
).
Спецификация модели
Построение эконометрической модели подразумевает выбор объясняющих переменных. Напомним, что выбор регрессоров является существенным моментом спецификации модели. Наши предыдущие рассуждения и выводы, касающиеся классической многомерной регрессионной модели, основывались на предположении, что мы имеем дело с правильной спецификацией модели, иначе говоря, строим оценки для «истинной» модели.
На практике, как правило, наша модель, для которой мы строим оценки, лишь приближенно соответствует «истинной» модели, свойства же оценок коэффициентов регрессии в значительной мере зависят от правильности спецификации модели. Поэтому возникает естественный вопрос о соотношении между оценками МНК в модели, используемой нами и «истинной» моделью. Рассмотрим два типичных случая (предпосылки регрессионного анализа предполагаются выполненными):
Случай 1. Отсутствие в модели существенной переменной, которая должна быть включена. Предположим, что имеется зависимость
, (1)
однако считается, что модель имеет вид
, (2)
и строится эмпирическая регрессия
. (3)
В этом случае оценки коэффициентов регрессии, их дисперсий и дисперсии возмущений являются смещенными. Так как оценка дисперсии возмущений участвует во многих статистических тестах, то в этом случае можно получить ложные выводы при проверке гипотез. Коэффициент детерминации в этом случае
отражает общую объясняющую способность всех переменных, и его значение является завышенным.
Случай 2. Наличие в модели несущественной переменной, которая не должна быть включена. Предположим, что имеется зависимость
, (4)
однако считается, что модель имеет вид
, (5)
и строится эмпирическая регрессия
. (6)
В этом случае оценки коэффициентов регрессии, их дисперсий и дисперсии возмущений являются несмещенными, но неэффективными. Так как дисперсии оценок в этом случае увеличиваются, то точность оценок уменьшается, некоторые оценки коэффициентов могут быть статистически незначимыми, и соответствующие переменные следует исключить из модели.
Так как свойство несмещенности оценок сохраняется, в этом случае может возникнуть соблазн включить в модель как можно больше переменных для того, чтобы улучшить подгонку модели к выборочным данным. Следует иметь в виду, что при этом уменьшается точность оценок и повышается корреляция между переменными (проблема мультиколлинеарности), что приводит к неустойчивости модели.
Для получения наилучшего набора объясняющих переменных, а также для устранения мультиколлинеарности на практике часто используют процедуры пошагового присоединения/исключения переменных. И хотя ни одна из подобных процедур не гарантирует получение оптимального набора регрессоров, на практике они обеспечивают достаточно хорошие результаты.
В качестве критериев отбора/исключения переменных используются значения частных коэффициентов корреляций, скорректированного коэффициента детерминации, а также
-статистика.
Как известно, распределение Фишера можно использовать для проверки гипотезы об одновременном равенстве нулю части коэффициентов регрессии. Так, пусть сначала была оценена регрессия с
объясняющими переменными и получено значение коэффициента детерминации
, затем добавлено еще
переменных, снова оценено уравнение регрессии (с применением использованных ранее данных), при этом значение коэффициента детерминации увеличилось до
. Используя
-тест можно проверить, превышает ли увеличение объясненной суммы квадратов случайный уровень. Соответствующая
-статистика имеет вид:
. (7)
В соответствии с нулевой гипотезой
эта статистика имеет распределение Фишера-Снедекора с
и
степенями свободы. По таблице распределения Фишера-Снедекора при заданном уровне значимости определяется значение
как критическая точка при числе степеней свободы
и
. Тогда:
1) если
, то гипотезу
следует отклонить и, следовательно, признать включение дополнительных
переменных оправданным;
2) если
, то гипотезу
следует принять и, следовательно, признать включение дополнительных
переменных не оправданным.
Таким образом, принятие нулевой гипотезы равнозначно статистической незначимости коэффициентов
, а также принятию гипотезы о равенстве коэффициентов детерминации до и после включения дополнительных переменных, т. е. включение в регрессию дополнительных переменных не дает улучшения в объяснении дисперсии
.
В частности, если добавляется только одна переменная, то статистика (27) принимает вид:
, (8)
со степенями свободы
и
.
С учетом вышесказанного процедура пошагового отбора переменных может состоять в следующем:
Шаг 1. Из исходного множества объясняющих переменных выбирается переменная
, имеющая наибольший коэффициент корреляции с зависимой переменной
. Для нее вычисляется скорректированный коэффициент детерминации
.
Шаг 2. Среди оставшихся объясняющих переменных выбирается та, которая совместно с уже отобранными объясняющими переменными имеет с
наибольший скорректированный коэффициент детерминации.
Шаг 3. По формуле (8) вычисляется значение
-статистики, которое проверяется на значимость. Если нулевая гипотеза о незначимости вводимой переменной отклоняется, то выбранная переменная включается в регрессию. После этого возвращаемся ко второму шагу.
Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться скорректированный коэффициент детерминации, и добавление новых объясняющих переменных является статистически значимым по
-тесту.
Заметим, что в качестве критерия выбора переменной, которая должна быть включена в регрессию, можно использовать значения частных коэффициентов корреляции. Гипотеза о равенстве нулю коэффициента при включаемой переменной равносильна как гипотезе о равенстве коэффициентов детерминации до и после включения этой объясняющей переменной, так и гипотезе о равенстве соответствующего частного коэффициента корреляции нулю.
Выводы
· Модель множественной линейной регрессии является наиболее распространенным (и простым) уравнением зависимости в случае, когда на рассматриваемый показатель оказывает влияние несколько факторов. Метод наименьших квадратов дает наилучшие (в определенном смысле) оценки параметров регрессии. Решающее значение для правильного и обоснованного применения регрессионного анализа в эконометрических исследованиях имеет выполнение условий Гаусса–Маркова.
· Необходимым элементом эконометрического анализа является проверка статистической значимости полученных оценок коэффициентов, а также всего уравнения регрессии в целом. В качестве показателя качества регрессии может использоваться множественный коэффициент детерминации.
· Особое значение в случае множественной регрессии имеют коэффициенты частной корреляции, показывающие силу влияния факторов на зависимую переменную и «очищенные» от влияния остальных факторов.
· При использовании множественной линейной регрессии для построения прогнозов необходимо учитывать доверительные интервалы прогноза и параметров регрессии.
· В случае множественной регрессии необходимо учитывать возможную мультиколлинеарность объясняющих переменных.
· Использование фиктивных переменных позволяет гибко учитывать влияние качественных факторов, в том числе сезонных и структурных изменений.
Вопросы для самопроверки
1. Опишите эконометрическую модель, приводящую к множественной линейной регрессии.
2. Какова эмпирическая основа построения выборочной множественной регрессии?
3. Что понимается под спецификацией модели множественной линейной регрессии?
4. Докажите справедливость формул вычисления оценок МНК параметров множественной линейной регрессии.
5. Дайте интерпретацию уравнению регрессии
, где
– доход (в млн руб),
– объем инвестиций в информационные технологии (в сотнях тыс. долларов),
– объем заработной платы (в сотнях тысяч руб.).
6. В чем состоят основные предположения регрессионного анализа в случае множественной регрессии?
7. Что является несмещенной оценкой дисперсии возмущений? Приведите формулу.
8. Как определяются стандартные ошибки коэффициентов регрессии?
9. Укажите статистики, распределенные по закону Стьюдента, во множественной линейной регрессии.
10. Как строятся интервальные оценки коэффициентов регрессии, и как они связаны с проверкой коэффициентов на статистическую значимость?
11. Каким образом можно оценить качество уравнения регрессии?
12. Чем отличается множественный коэффициент детерминации от скорректированного коэффициента детерминации?
13. Чем отличается выборочный коэффициент парной корреляции от коэффициента частной корреляции?
14. В чем суть статистической значимости коэффициентов регрессии? Сформулируйте правило проверки статистической значимости коэффициентов парной линейной регрессии.
15. В чем состоит идея проверки статистической значимости уравнения регрессии в целом? Сформулируйте правило проверки.
16. Объясните значение терминов «коллинеарность» и «мультиколлинеарность».
17. В чем различия между различными формами мультиколлинеарности?
18. Каковы основные последствия мультиколлинеарности?
19. Как можно обнаружить мультиколлинеарность?
20. Перечислите основные методы устранения мультиколлинеарности.
21. Что представляют собой фиктивные переменные?
22. Каковы основные причины использования фиктивных переменных в регрессионном анализе?
23. В чем смысл «ловушки фиктивных переменных»?
24. В чем состоит основное правило для определения количества вводимых фиктивных переменных?
25. Пусть для некоторого предприятия выборочная регрессионная модель зависимости заработной платы
(в сотнях долларов) от стажа работы сотрудника
(в десятилетиях) и пола сотрудника (фиктивная переменная
:
для женщин,
– для мужчин) имеет вид:
. Дайте интерпретацию коэффициентам этого уравнения.
26. Приведите примеры использования фиктивных переменных для учета сезонных особенностей.
Упражнения
Решение типовых задач
Результаты расчетов параметров выборочной множественной регрессии с помощью функции ЛИНЕЙН приведены в таблице:
|
26,87 |
17,33 |
88,65 |
|
8,07 |
2,82 |
29,90 |
|
0,84 |
49,65 |
#Н/Д |
|
70,82 |
27 |
#Н/Д |
|
349186 |
66568 |
#Н/Д |
Известна также матрица:
|
|
0,36 |
–0,01 |
–0,06 |
|
–0,01 |
0,00 |
–0,01 |
|
|
–0,06 |
–0,01 |
0,03 |
и матрица выборочных парных коэффициентов корреляции:
|
|
1 |
0,88 |
0,78 |
|
0,88 |
1 |
0,68 |
|
|
0,78 |
0,68 |
1 |
Проверьте значимость коэффициентов выборочной регрессии и всего уравнения в целом. Постройте доверительные интервалы коэффициентов. Вычислите частные коэффициенты корреляции между
и объясняющими переменными, проверьте их значимость. Постройте прогноз для значений объясняющих переменных
. Постройте доверительные интервалы прогноза функции регрессии и индивидуального значения.
Решение
Для проверки значимости коэффициентов регрессии вычислим соответствующие значения
-статистик:
,
.
Для уровня значимости 5 % по таблице распределения Стьюдента с 27 степенями свободы находим критическое значение
. Так как
и
, то гипотезы
и
отклоняются, и коэффициенты признаются статистически значимыми.
Из таблицы функции ЛИНЕЙН видно, что значение
-статистики равно 70,82. По таблице распределения Фишера для уровня значимости 5 %, степеням свободы
и
находим критическое значение
. Так как
, то гипотезу
следует отклонить и, следовательно, признать построенное уравнение линейной регрессии статистически значимым.
Доверительный интервал для коэффициента
, соответствующий уровню значимости 5 % имеет левую границу, равную
, и правую границу, равную
. Аналогичный доверительный интервал для коэффициента
имеет границы
и
.
Для того чтобы вычислить частные коэффициенты корреляции, найдем, прежде всего, матрицу, обратную матрице выборочных коэффициентов корреляции:
|
|
6,09 |
–3,96 |
–2,06 |
|
–3,96 |
4,43 |
0,07 |
|
|
–2,06 |
0,07 |
2,55 |
С помощью этой матрицы вычислим частные коэффициенты корреляции:
,
.
Для того чтобы проверить статистическую значимость частных коэффициентов корреляции, вычислим их
-статистики:
,
.
Критическое значение определим по таблице распределения Стьюдента для уровня значимости 5 % и 29 степеней свободы:
. Так как оба значения
-статистик больше критического значения, то оба частных коэффициента корреляции признаются статистически значимыми.
Точечный прогноз, соответствующий значениям объясняющих переменных
, вычислим непосредственной подстановкой этих значений в уравнение регрессии
.
Для построения доверительных интервалов прогноза вычислим стандартные ошибки прогнозов функции регрессии и индивидуального значения
,
.
Тогда доверительный интервал прогноза среднего значения, соответствующий 5 % уровню значимости, имеет левую границу, равную
, и правую границу –
. Левая граница доверительного интервала прогноза индивидуального значения
, правая граница –
.
Задания для самостоятельного решения
1. Вычислите стандартную ошибку выборочной множественной регрессии
, если известно, что
,
,
,
,
,
.
2. Проверьте значимость коэффициентов выборочной множественной регрессии, постройте для них доверительные интервалы. В таблице приведены результаты вычислений с помощью функции ЛИНЕЙН:
|
0,012529 |
0,277187 |
0,070162888 |
72,81473 |
|
0,284479 |
0,12873 |
0,129283079 |
18,75412 |
|
0,290445 |
9,046342 |
#Н/Д |
#Н/Д |
|
3,547553 |
26 |
#Н/Д |
#Н/Д |
|
870,956 |
2127,744 |
#Н/Д |
#Н/Д |
3. Вычислите стандартные ошибки коэффициентов множественной выборочной регрессии, проверьте статистическую значимость коэффициентов, если известно, что:
|
|
0,786 |
0,009 |
–0,101 |
–0,123 |
|
0,009 |
0,004 |
–0,008 |
–0,004 |
|
|
–0,101 |
–0,008 |
0,032 |
0,012 |
|
|
–0,123 |
–0,004 |
0,012 |
0,036 |
В таблице приведены результаты вычислений с помощью функции ЛИНЕЙН:
|
19,72891 |
40,90148929 |
12,87525 |
14,1564391 |
|
8,415448 |
7,897460356 |
2,840829 |
39,35198416 |
|
0,876987 |
44,37601667 |
#Н/Д |
#Н/Д |
|
61,7864 |
26 |
#Н/Д |
#Н/Д |
|
365015,1 |
51200,00225 |
#Н/Д |
#Н/Д |
4. Проверьте значимость уравнения выборочной множественной регрессии в целом. Вычислите скорректированный коэффициент детерминации. В таблице приведены результаты вычислений с помощью функции ЛИНЕЙН:
|
0,012529 |
0,277187 |
0,070162888 |
72,81473 |
|
0,284479 |
0,12873 |
0,129283079 |
18,75412 |
|
0,290445 |
9,046342 |
#Н/Д |
#Н/Д |
|
3,547553 |
26 |
#Н/Д |
#Н/Д |
|
870,956 |
2127,744 |
#Н/Д |
#Н/Д |
5. По ежемесячным данным за 6 лет построена выборочная множественная регрессия
. Зависимый признак – объем потребления (в сотнях руб.), первый фактор – располагаемый доход (в тыс. руб.), второй фактор – процент банковской ставки по вкладам. Известны значения
-статистик коэффициентов:
,
и коэффициента детерминации
.
Дайте интерпретацию коэффициентам. Проверьте статистическую значимость коэффициентов. Найдите стандартные ошибки коэффициентов. Проверьте статистическую значимость коэффициента детерминации (значимость уравнения в целом по критерию Фишера).
6. Для выборочной множественной регрессии
, отражающей зависимость среднего душевого дохода (в руб.) от средней заработной платы в день (в руб.) и среднего возраста (в годах), построенной по 30 наблюдениям, известны выборочные коэффициенты корреляции
,
,
.
Дайте интерпретацию коэффициентам. Вычислите частные коэффициенты корреляции, сравните их с парными.
7. Вычислите частные коэффициенты корреляции между
и факторами, проверьте их значимость, если известна матрица выборочных коэффициентов корреляции:
|
|
|
|
|
|
|
1 |
0,87 |
0,84 |
|
|
0,87 |
1 |
0,71 |
|
|
0,84 |
0,71 |
1 |
8. По выборке объемом 50 наблюдений значений
,
,
вычислена следующая матрица выборочных коэффициентов корреляции:
|
|
|
|
|
|
|
1 |
0,45 |
–0,35 |
|
|
0,45 |
1 |
0,52 |
|
|
–0,35 |
0,52 |
1 |
Найдите частные коэффициенты корреляции
,
,
, проверьте их статистическую значимость.
9. Для выборочной множественной регрессии
, являющейся эмпирической оценкой зависимости среднего душевого дохода (в руб.) от средней заработной платы в день (в руб.) и среднего возраста (лет), вычислите средние коэффициенты эластичности и дайте им интерпретацию, если известно:
|
|
Среднее значение |
Среднее квадратическое |
|
Доход |
86,8 |
11,44 |
|
Зарплата |
54,9 |
5,86 |
|
Возраст |
33,5 |
0,58 |
10. Для выборочной множественной регрессии
, являющейся эмпирической оценкой зависимости среднего душевого дохода (в руб.) от средней заработной платы в день (в руб.) и среднего возраста (лет), построенной по 30 наблюдениям, вычислены выборочные парные коэффициенты корреляции
,
,
и коэффициент детерминации
.
Проверьте статистическую значимость уравнения в целом по критерию Фишера. По частному
-критерию проверьте целесообразность включения в уравнение фактора
после фактора
и наоборот – фактора
после фактора
.