В случае парной
регрессии рассматривается один объясняющий фактор: через обозначим
изучаемый эконометрический показатель; через
–
объясняющий фактор. Эконометрическая модель парной регрессии имеет следующий
вид
, (1)
где – неизвестная
функциональная зависимость (теоретическая регрессия);
– возмущение,
случайное слагаемое, представляющее собой совокупное действие не включенных в
модель факторов, погрешностей.
Основная задача
эконометрического моделирования – построение по выборке эмпирической модели,
выборочной парной регрессии , являющейся
оценкой теоретической регрессии (функции
):
, (2)
здесь –
эмпирическая (выборочная) регрессия, описывающая усредненную по
зависимость
между изучаемым показателем и объясняющим фактором. После построения выборочной
регрессии обычно производится верификация модели – проверка статистической
значимости и адекватности построенной парной регрессии имеющимся эмпирическим
данным.
Экспериментальная основа построения парной
эмпирической регрессии – двумерная выборка: , где
– объем
выборки (объем массива экспериментальных данных).
Основная задача спецификации модели парной регрессии – выбор вида функциональной зависимости. В случае парной регрессии обычно рассматриваются функциональные зависимости следующего вида
– линейная; (3)
–
параболическая; (4)
–
гиперболическая; (5)
–
показательная; (6)
– степенная, (7)
а также некоторые другие. Заметим, что
функциональные зависимости (3), (4) и (5) линейны по своим параметрам и
.
Основные методы выбора функциональной
зависимости :
1) геометрический;
эмпирический;
2) аналитический.
Геометрический метод выбора функциональной
зависимости сводится к следующему. На координатной плоскости наносятся
точки
,
соответствующие выборке. Полученное графическое изображение называется полем
корреляции (диаграммой рассеяния).
Исходя из
получившейся конфигурации точек, выбирается наиболее подходящий вид
параметрической функциональной зависимости .
На рис. 1 приведен пример поля корреляции для некоторой выборки объемом 11
наблюдений (каждому наблюдению соответствует одна точка) с графиками двух
функциональных зависимостей – линейной функции и параболы.
Эмпирический метод состоит в следующем.
Выбирается некоторая параметрическая функциональная зависимость (см.,
например, (3–7)). Для построения по выборке оценки
этой
зависимости чаще всего используется метод наименьших квадратов (МНК). Согласно
методу наименьших квадратов значения параметров функции
(будем
обозначать их через
,
) выбираются
таким образом, чтобы сумма квадратов отклонений выборочных значений
от значений
была минимальной
, (8)
минимум ищется по параметрам
, которые
входят в зависимость
.
Найденные значения параметров, которые
минимизируют указанную сумму квадратов разностей, называются оценками
неизвестных параметров регрессии по методу наименьших квадратов (оценками МНК).
Выборочная регрессия (или
), в которую подставлены
найденные значения, уже не содержит неизвестных параметров и является оценкой
теоретической регрессии. Именно эту зависимость
будем
рассматривать как эмпирическую усредненную зависимость изучаемого показателя от
объясняющего фактора.
После нахождения
эмпирического уравнения регрессии вычисляются значения и
остатки
,
. По
величине остаточной суммы квадратов
можно
судить о качестве соответствия эмпирической функции
имеющимся
в наличии статистическим наблюдениям. Перебирая разные функциональные
зависимости и каждый раз действуя подобным образом, можно практически подобрать
наиболее подходящую функцию для описания имеющихся данных.
Аналитический метод сводится к попытке
выяснения содержательного смысла зависимости изучаемого показателя от
объясняющего фактора и последующего выбора на этой основе соответствующей
функциональной зависимости. Так, если –
расходы фирмы,
– объем
выпущенной продукции за месяц, то нетрудно получить следующую модель зависимости
расходов от объема выпущенной продукции:
,
где –
условно-постоянные расходы,
–
условно-переменные расходы.
В практике эконометрического анализа часто используют линейную парную регрессию. В модели парной линейной регрессии зависимость (1) между переменными представляется в виде
, (9)
т. е. теоретическая регрессия имеет вид (3).
На основе
выборочных наблюдений оценка теоретической регрессии – выборочная (эмпирическая)
регрессия строится
в виде:
, (10)
где ,
являются
оценками параметров
,
теоретической
регрессии.
Рассматривается модель парной линейной регрессии
.
На основе эмпирических наблюдений построим оценку теоретической регрессии – найдем выборочное уравнение регрессии
.
Оценки ,
параметров
,
определяются
по методу наименьших квадратов из соотношения:
, (1)
т. е. ,
выбираются
таким образом, чтобы сумма квадратов отклонений наблюдаемых (выборочных)
значений показателя
от расчетных
была минимальной.
Вычисляя производные по параметрам ,
и приравнивая
их к нулю, приходим к следующей системе из двух уравнений (система нормальных
уравнений):
,. (2)
Решение этой системы уравнений называется оценкой неизвестных параметров по методу наименьших квадратов, его можно найти по формулам:
(3)
где
,
,
,
.
Таким образом, парная эмпирическая линейная регрессия имеет вид:
, (4)
где коэффициенты и
определяются
по формуле (3).
Коэффициенту при
объясняющем факторе
в
парной линейной регрессии можно дать естественную экономическую интерпретацию.
Коэффициент
показывает,
на какую величину изменяется в среднем изучаемый эконометрический показатель
при увеличении объясняющего фактора на одну единицу.
Нетрудно найти значения показателя, рассчитанные по выборочной линейной регрессии для тех значений объясняющего фактора, которые содержатся в выборке:
,
. (5)
Особое значение для проверки статистической значимости парной линейной регрессии имеют остатки (разности между истинными значениями показателя и значениями, вычисленными по уравнению линейной регрессии):
,
. (6)
Основные
предположения регрессионного анализа относятся к случайной компоненте и имеют
решающее значение для правильного и обоснованного применения регрессионного
анализа в эконометрических исследованиях.
В классической модели регрессионного анализа предполагаются выполненными следующие предпосылки (условия Гаусса-Маркова):
Условие Величины являются
случайными.
Условие Математическое ожидание
возмущений равно нулю: .
Условие Возмущения и
некоррелированы:
,
.
Условие Дисперсия возмущения одна и
та же для каждого наблюдения
:
. Это
условие одинаковости дисперсий возмущений называется условием гомоскедастичности.
Нарушение этого условия называется гетероскедастичностью.
Условие Величины взаимно
независимы со всеми значениями объясняющих переменных
.
Обычно считают, что объясняющие переменные являются неслучайными величинами.
Здесь, во всех условиях .
Эти предпосылки образуют первую группу предпосылок, необходимых для проведения регрессионного анализа в рамках классической модели.
Вторая группа предпосылок дает достаточные условия для обоснованного проведения проверки статистической значимости эмпирических регрессий:
Условие Совместное распределение
случайных величин является
нормальным.
При выполнении
предпосылок первой и второй групп случайные величины оказываются
взаимно независимыми, одинаково распределенными случайными величинами,
подчиняющимися нормальному распределению с нулевым математическим
ожиданием и дисперсией
. Модель (9),
удовлетворяющая приведенным выше условиям, называется классической нормальной
линейной моделью парной регрессии.
Справедлива теорема:
Теорема (Гаусса-Маркова) Если регрессионная модель
удовлетворяет
условиям, то оценки МНК и
(3) имеют
наименьшую дисперсию в классе всех линейных несмещенных оценок.
Заметим, что
после построения уравнения выборочной регрессии, наблюдаемые значения можно представить
в виде
, (1)
где , коэффициенты
,
определяются
по формуле (3). Остатки
являются, в
отличие от возмущений
, наблюдаемыми
величинами, с помощью которых можно оценить воздействие неучтенных факторов и
ошибок наблюдений. Говорят, что
является выборочной
оценкой возмущения
.
Можно показать, что статистика (выборочная
остаточная дисперсия), определяемая с помощью остатков (см.
(6)):
(2)
является несмещенной оценкой дисперсии –
дисперсии возмущений (теоретической остаточной дисперсии).
При выполнении условий Гаусса-Маркова первой и второй групп справедливы утверждения:
Утверждение 1. Статистика распределена
по закону Стьюдента с
степенями
свободы, здесь
, (3)
представляет собой стандартную ошибку коэффициента ,
– выборочная
дисперсия
.
Утверждение 2. Статистика распределена
по закону Стьюдента с
степенями
свободы, здесь
, (4)
представляет собой стандартную ошибку коэффициента ,
– выборочная
дисперсия
.
Утверждение 3.
Если и
некоррелированы,
то статистика
(5)
распределена по
закону Стьюдента с степенями
свободы. Здесь
–
теоретический коэффициент парной корреляции,
– выборочный
коэффициент парной корреляции:
, (6)
где ,
– выборочные
дисперсии
и
соответственно,
– выборочная
ковариация между
и
.
Коэффициент детерминации является одной из наиболее эффективных оценок адекватности регрессионной модели, т. е. мерой качества уравнения регрессии (соответствия регрессионной модели эмпирическим данным).
После построения
выборочного уравнения регрессии, как уже указывалось выше в пункте 1.6.1,
значение зависимой переменной в каждом
наблюдении можно разложить на две составляющие:
,
здесь остаток представляет
собой ту часть зависимой переменной
, которую
невозможно «объяснить» с помощью выборочной регрессии. Можно показать, что
выборочная дисперсия наблюдений
может быть
представлена в виде суммы:
, (1)
в которой первое слагаемое представляет
собой часть, «объясненную» регрессионным уравнением (или обусловленную регрессией),
а второе слагаемое
–
«необъясненную» часть, характеризующую влияние неучтенных факторов и т. п.
Необходимо заметить, что такое разложение справедливо только в том случае,
когда в уравнение регрессии включена константа
, при
этом
.
Разложение (1) часто записываю в следующем виде:
, (1)
где представляет
собой общую сумму квадратов отклонений зависимой переменной от средней,
есть
сумма квадратов отклонений, обусловленная регрессией, а
–
остаточная сумма квадратов.
Коэффициент детерминации определяется по формуле:
. (3)
Величина , как видно из
формул (1) и (3), представляет собой часть (долю) вариации (разброса,
дисперсии) зависимой переменной, обусловленную («объясненную») уравнением
регрессии (иногда говорят – обусловленную вариацией объясняющей переменной).
Свойства коэффициента детерминации:
Свойство 1. ;
Свойство 2. Чем ближе к
единице, тем лучше регрессия аппроксимирует эмпирические данные, т. е. эмпирические наблюдения
ближе к линии выборочной регрессии. Если
, то
между
и
есть
линейная функциональная зависимость, в этом случае все эмпирические точки наблюдений
лежат на прямой регрессии;
Свойство 3. Если ,
то в этом случае вариация зависимой переменной полностью обусловлена случайными
воздействиями и линия выборочной регрессии параллельна оси
.
Заметим, что
коэффициент детерминации имеет
смысл рассматривать только при наличии свободного члена в уравнении регрессии,
так как лишь в этом случае справедливо равенство (1).
Оценка качества соответствия выборочного равнения регрессии наблюдаемым данным может производиться и с помощью средней ошибки аппроксимации регрессии по формуле:
. (4)
Как указывают некоторые авторы, в практических исследованиях значение этой ошибки в пределах 5–7 % свидетельствует о хорошем соответствии модели эмпирическим данным.
Коэффициент
регрессии , как уже
отмечалось выше, показывает, на сколько единиц в среднем изменяется значение
показателя
, когда фактор
увеличивается
на одну единицу, поэтому он также может служить мерой тесноты связи между
и
. Однако
зависит от
единиц измерения переменных. Именно поэтому удобно использовать некоторую
«стандартную» систему единиц измерения тесноты связи, в которой различные
данные были бы сравнимы между собой. В качестве единиц измерения такой системы
используется среднее квадратическое отклонение переменных, а показателем
тесноты связи служит коэффициент корреляции.
Действительно, используя понятия выборочных дисперсий, ковариации и корреляции, оценки МНК можно записать специальным образом:
,
, (5)
где ,
–
выборочные средние,
,
–
выборочные дисперсии,
–
выборочный коэффициент корреляции (см. (5)).
Следовательно, парная эмпирическая линейная регрессия может быть записана в виде:
. (6)
Таким образом, величина
(7)
показывает, на сколько величин изменится
(в среднем)
, если
увеличится
на одно
,
поэтому выборочный коэффициент корреляции
также
является показателем тесноты связи (более точно – характеризует тесноту линейной
зависимости) между переменными.
Выборочный коэффициент корреляции является безразмерной величиной и обладает следующими свойствами:
Свойство 1. ;
Свойство 2. При корреляционная
зависимость представляет собой линейную функциональную зависимость (все
наблюдаемые значения располагаются на прямой линии регрессии);
Свойство 3. При линейная
корреляционная связь отсутствует (линия регрессии параллельна оси
).
Заметим, что выборочный коэффициент корреляции полностью
оценивает тесноту связи только в случае совместного нормального распределения
случайных величин
и
, в других
случаях выборочный коэффициент корреляции является оценкой меры только линейной
зависимости.
Практически наиболее удобна следующая формула вычисления (которая
непосредственно может быть получена из определения):
. (8)
В случае парной линейной регрессии между коэффициентом детерминации и
коэффициентом корреляции
существует
следующая связь:
. (9)
Проверка значимости (статистической) уравнения регрессии означает проверку соответствия модели, выражающей зависимость между переменными, экспериментальным данным, а также проверку достаточности включенных в уравнение объясняющих переменных для описания зависимой переменной.
Правило проверки
статистической значимости оценок и
основывается
на статистических свойствах оценок МНК и проверке статистических гипотез
и
.
Невозможность отклонения нулевой гипотезы означает статистическую незначимость
соответствующего коэффициента и наоборот, отклонение нулевой гипотезы по сравнению
с альтернативной означает, что соответствующий коэффициент статистически значим.
Как всегда, проверка статистических гипотез осуществляется при некотором уровне значимости. В практических эконометрических исследованиях наиболее часто используются 5 и 1 %-ный уровни значимости. Выбор того или иного уровня значимости определяется исследователем.
Напомним, что если нулевая гипотеза отклоняется при 1 %-ном уровне значимости, то она автоматически отклоняется и при 5 %-ном уровне.
Если нулевая гипотеза принимается при 5 %-ном уровне значимости, то она принимается и при 1 %-ном уровне.
Если же при 5 %-ном уровне значимости нулевая гипотеза отклоняется, то необходимо проверить ее при 1 %-ном уровне, и если при этом уровне она принимается, то результаты проверки гипотезы приводятся для двух уровней значимости.
Правило проверки значимости коэффициента
Статистика при
выполнении гипотезы
распределена
по закону Стьюдента с
степенями
свободы.
Из таблицы
распределения Стьюдента с степенями
свободы по заданному уровню значимости выбирается значение
как
критическая точка, соответствующая двусторонней критической области. Тогда:
1) если , то гипотезу
следует
отклонить и, следовательно, признать коэффициент
статистически
значимым;
2) если , то гипотезу
следует
принять и, следовательно, признать коэффициент
статистически
незначимым.
Правило проверки значимости коэффициента
Статистика при
выполнении гипотезы
распределена
по закону Стьюдента с
степенями
свободы.
Из таблицы
распределения Стьюдента с степенями
свободы по заданному уровню значимости выбирается значение
как
критическая точка, соответствующая двусторонней критической области. Тогда:
1) если , то гипотезу
следует
отклонить и, следовательно, признать коэффициент
статистически
значимым;
2) если , то гипотезу
следует
принять и, следовательно, признать коэффициент
статистически
незначимым.
Правило проверки
значимости
коэффициента корреляции
Статистика при
выполнении гипотезы
(т. е.
при отсутствии корреляционной связи, здесь
–
генеральный коэффициент корреляции) распределена по закону Стьюдента с
степенями
свободы.
Из таблицы
распределения Стьюдента с степенями
свободы по заданному уровню значимости выбирается значение
как
критическая точка, соответствующая двусторонней критической области. Тогда:
1) если , то гипотезу
следует
отклонить и, следовательно, признать коэффициент
статистически
значимым;
2) если , то гипотезу
следует
принять и, следовательно, признать коэффициент
статистически
незначимым.
Проверка
значимости коэффициента одновременно
является проверкой значимости парной линейной регрессии в целом. Еще один
способ проверки значимости парной линейной регрессии основан на коэффициенте
детерминации
и
статистике, распределенной по закону Фишера с числом степеней свободы
числителя, равном 1, и числом степеней свободы знаменателя, равном
.
Правило проверки значимости линейной регрессии
в целом (гипотезы ) с
использованием
статистики
Если выполнены
предпосылки регрессионного анализа, то при выполнении гипотезы (что
означает отсутствие взаимосвязи между
и
,
а также статистическую незначимость построенной парной регрессии)
статистика
распределена
по закону Фишера с числом степеней свободы числителя, равном 1, и числом степеней
свободы знаменателя, равном
.
По таблице
распределения Фишера-Снедекора при заданном уровне значимости определяется
значение как
критическая точка при числе степеней свободы числителя, равном 1, и числе
степеней свободы знаменателя, равном
. Тогда:
1) если , то гипотезу
следует
отклонить и, следовательно, признать построенное уравнение линейной регрессии
статистически значимым;
2) если , то гипотезу
следует
принять и, следовательно, признать построенное уравнение статистически незначимым.