June 3, 2024
0
0
Зміст
Основы робот с пакетом STATISTICA. Создание
и редактирование таблиц. Введение данных,
кодирование введения. Импорт и экспорт данных.
Категоризация данных. Создание отчетов.
Описание данных. Определение типа и шкалы
измерения данных. Использование графиков для
визуализации информации. Основные
описательные статистики в пакетах STATISTICA
и OpenOffice.org Calc. Определение ошибок,
выбросов и их удаление. Проверка гипотез
относительно законов распределения.
6

1 Организация данных и построение графиков в пакете
STATISTICA
1.1 Цели и задачи лабораторной работы
В данной лабораторной работе последовательно рассмотрим основные
ресурсы всемирной сети Internet посвященных проблемам эконометрики, а
также операции в статистическом пакете программ (СПП) STATISTICA, при
этом будут выделим следующие задачи:
1 Ознакомимся с содержимым сайтов посвященных проблемам
эконометрики;
2 Ознакомимся с возможностями ввода и сохранения информации в
пакете STATISTICA используя данные приложения 1;
3 Используя данные приведенные в приложении 1 построим двух- и
трехмерный графики в STATISTICA.
1.2 Обзор статистических и эконометрических пакетов прикладных
программ
Информационные технологии в последние десятилетие XX века прочно
вошли в социально-экономическую жизнь общества. Внедрение компьютерных
технологий в экономические исследования, позволило в настоящее время
использовать сложные математические методы, применительно к
экономическим объектам, будь то экономика страны в целом или экономика
отдельного предприятия.
Проблема выбора наиболее подходящего пакета для конкретной
категории пользователей, круга решаемых задач, типа и возможностей
компьютера и т.д. весьма непроста. Из курса общей теории статистики
известно, что любое исследование можно условно разделить на три этапа: сбор
статистической информации, ее обработка и анализ полученных результатов. В
соответствии с этим имеющиеся на сегодняшний момент пакеты программ
можно разделить на три группы:
1 Программные продукты и организационная техника, способствующие
увеличению скорости подготовки исходной информации в
электронной виде.
2 Пакеты программ, непосредственно отвечающие за обработку
числового материала.
3 Пакеты программ необходимые для
оформления результатов
исследования.
Применительно к эконометрике наибольший интерес представляет
вторая группа, из которой наиболее известными на сегодняшней момент
пакетами программ являются: STATISTICA 6.0, SPSS 12.00, Stata 8, STADIA
6.0, Eviews 4.1, S-Plus, StatGrathics, MathCad 12 и другие.
7

Перечисленные программы можно разделить на подгруппы по
количеству используемых статистических и эконометрических процедур.
1
Пакеты STATISTICA 6.0, SPSS 12.00 и STADIA 6.0 отличает большое
количество, представленных в распоряжение пользователя методов, начиная
от простых дескриптивных (описательных) статистик, заканчивая такими
сложными статистико-математическими методами как нейронные сети и
многомерное шкалироване. Основным недостатком данных пакетов
программ является низкая гибкость алгоритмов
построения
эконометрических моделей.
2
Статистико-эконометрические программы (Eviews 4.1, Stata 8) – рассчитаны
в основном на профессионалов в области эконометрического
моделирования. Важной особенностью данных пакетов программ является
практически полное отсутствие оконного меню и наличие командной строки
в качестве основной рабочей области.
3
К данной подгруппе можно отнести программы S-Plus и StatGrathics,
которые хотя и обладают довольно большим набором математико-
статистических методов, но не пригодны для аналитических изысканий, они
скорее всего наилучшим образом подойдут для начинающих
исследователей, студентов и аспирантов ВУЗ-ов.
4
Пакеты Mathcad, Maple и другие – являются программами предназначенные
для математических вычислений, рассчитанные на исследователя с
обширными математическими знаниями. Данные пакеты имеют
возможность реализации статистических методов, но при этом требуют от
исследователя знания алгоритмов построения данных процедур.
5
С ростом типов информации возникает необходимость в так называемых
табличных редакторах, таких как MS Excel, Lotus
1-2-3, Quattro Pro,
StarOffice Calc и 602Tab, предназначенных для быстрого ввода числовых
данных, их редактирования и преобразования в необходимый формат. К
достоинствам данных программ можно отнести возможность импорта
информации из баз данных, редактирование информации и проведение
разведочного анализа. Недостатком, с точки зрения исследователя, можно
назвать незначительное количество статистических алгоритмов и процедур
обработки данных, либо неудобство их применения.
1.3 Рекомендуемая литература
Для лучшего понимания материала изложенного в данной главе
необходимо дополнительно проанализировать следующие источники
литературы (см. список используемой литературы):
1 Вуколов, Э.А. Основы статистического анализа. Практикум по
статистическим методам и исследованию операций с использованием
пакетов STATISTICA и EXCEL: Учебное пособие. – М.: ФОРУМ: ИНФРА-
М, 2004. – 464с. – ISBN 5-8199-0141-X, 5-16-002003-9. (см. стр. 8-18)
8

2 Кремер Н, Путко Б. Эконометрика: Учебник для вузов. – М.: ЮНИТИ-
ДАНА. 2003. – 311с. (см. стр. 9-24)
3 Тюрин Ю.Н., Макарова А.А. Анализ данных на компьютере / Под ред. В.Э.
Фигурнова. – 3-е изд., перераб. и доп. – М.: ИНФРА-М, 2003. – 544с. (см.
стр. 470-487)
4 Халафян А.А. STATISTICA 6. Статистический анализ данных. 3-е изд.
Учебник – М.: ООО «Бином-Пресс», 2007 г. – 512 с. ISBN 978-5-9518-0215-
6. (см. стр. 13-51, 59-81)
1.4 Интернет источники, посвященные проблемам эконометрики и
сбору статистических данных
В настоящее время всемирная сеть Internet предоставляет пользователям
огромные возможности для получения справочной информации и «добыче»
исходной статистической информации для проведения эконометрического
исследования. В связи с этим все многообразие сайтов можно разделить на три
группы:
1 Источники данных
Государственный комитет по статистике РФ – www.gks.ru
Межгосударственный статистический комитет СНГ – http://www.cisstat.com/rus/
Центробанк РФ – www.cbr.ru
Высшая школа экономики – http://stat.hse.ru/hse/index.html
Всемирный банк – www.worldbank.org
2 Проблемы эконометрического моделирования
Центр статистических технологий – http://nickart.spb.ru/analysis/links.php на
данной страничке содержатся раздел ПОЛЕЗНЫЕ СТРАНИЦЫ В ИНТЕРНЕТ
Эконометрическая страничка Александра Цыплакова –
Практикум по эконометрике – http://dist-economics.eu.spb.ru/book/index.html
Страница И.Н. Молчанова – http://molchanov.narod.ru/
3 Производители и распространители программного обеспечения
СПП STATISTICA – www.statistica.ru
СПП SPSS – www.spss.ru
СПП EViews – www.eviews.com
СПП STATA – www.stata.com
1.5 Запуск пакета STATISTICA
Запустить данный программный продукт можно тремя способами:
Во-первых, на Рабочем столе необходимо два раза кликнуть по
пиктограмме программы (рисунок 1.1):
9

Рисунок 1.1 – Пиктограмма программы STATISTICA
Во-вторых, можно выбрать кнопку Пуск → Программы → STATISTICA
→ STATISTICA
К третьему способу необходимо прибегать в самых крайних случаях, он
заключается в следующем: на диске С (или другом диске на который было
произведена инсталляция пакета) необходимо найти папку Program Files деле
выбрать папку StatSoft → statist.exe
После описанных действий произойдет загрузка требуемой программы.
1.6 Рабочее окно пакета STATISTICA
Рассматриваемая версия программного продукта по сравнению с
предыдущими, обладает более удобным пользовательским интерфейсом.
Управление программой максимально приближено к семейству Windows
приложений.
Обратимся к рисунку 1.2, и рассмотрим возможности пакета. В основу
данной программы положена электронная таблица, которая поддерживает
основные возможности таких табличных редакторов как MS Excel, Lotus 1-2-3,
Quattro Pro и др.
10

Рисунок 1.2 – Рабочее окно пакета STATISTICA
Имея сходства с табличными редакторами, такие как копирование,
вставка, перенос, данных, ввод формул, преобразование данных и т.д.
рассматриваемый пакет программ имеет некоторые особенности. Одним из
основных отличий является особое расположение данных в рабочем листе, при
этом необходимо ввести два понятия. Первое понятие Variables (Переменные) –
это переменные (совокупности), располагаемые в столбец
(на рисунке
1.2
отображены как Var1, var2,
…, Var10). Второе понятие Cases
(Значения,
наблюдения) – это единицы совокупности или уровни ряда (в данном случае
отображаются в левой части таблицы как 1, 2, 3, «10).
Заполняя электронную таблицу пакета фактическими данными, ни когда
не стоит забывать об этой конфигурации, в противном случае применяя к
неправильно введенным данным эконометрические методы заведомо
совершается ошибка.
Также немаловажным является то, что в электронной таблице не
допускаются пропущенные
(незаполненные) строки, т.к. программа будет
расценивать их как ячейки заполненные нулями, соответственно при
выполнении какой-либо процедуры будут получены искаженные результаты.
В верхней части рабочего окна пакета
(как и в любом Windows
приложение) расположено главное меню:
11

Рисунок 1.3 – Главное меню программы
Как видим из рисунка 1.3, пункты из панели главного меню: File (Файл),
Edit (Правка), View (Вид), Insert (Вставка), Format (Формат), Tools (Сервис),
Windows (Окно) и Help (Справка) по своей функциональной принадлежности
являются стандартными для Windows-приложений.
Специфическими пунктами меню можно считать следующие:
Statistics
(Вычисления)
– данный пункт меню содержит огромное
количество методов статистической обработки данных начиная от расчета
описательных статистик (максимум, минимум, средняя и т.д.) до сложнейших
многомерных статистических алгоритмов.
Graphs (Графики) – в данном пункте доступны огромное количество
разнообразных графиков и диаграмм, как двухмерных так и трехмерных.
Date (Данные) – в данном меню доступны алгоритмы направленные на
преобразование имеющихся данных (стандартизация, ранжирование и т.д.).
1.7 Создание файла данных
Создать файл данных в пакете STATISTICA можно двумя способами:
1 Импортировать готовые данные из других программ (баз данных,
математических и статистических пакетов прикладных программ).
2 Ввести необходимую информацию с клавиатуры.
Для создания файла данных первым способом введем в табличном
редакторе Excel данные представленные в приложении 1 – таблица 1.1.
Далее сохраним файл с именем Книга 1.xls на диске С или папке Мои
документы (или другой папке) после этого необходимо закрыть табличный
редактор Excel.
1.7.1 Импорт данных из внешних программ
Для импорта файла с данными в пакет STATISTICA необходимо пройти
следующие шаги:
Шаг 1. В главном меню пакета выберем File → Open (Файл
Открыть).
Шаг 2. В появившемся окне (рисунок 1.4) необходимо выбрать тип
файла, в данном случае файл электронной таблицы Excel (т.е. необходимо
выбрать расширение
*.xls) и имя искомого файла, далее нажать кнопку
Открыть.
12

Рисунок 1.4 – Диалоговое окно Open (Открытие)
Шаг
3. В открывшемся диалоговом окне
(рисунок
1.5) будет
предложено импортировать отдельную страницу или все страницы рабочей
книги.
Рисунок 1.5 – Диалоговое окно Opening file (Открытие файла)
где:
Import all sheets to a Workbook – Импорт всех страниц рабочей книги
Import selected sheets to a Spreadsheet – Импорт выбранных страниц
рабочей книги
Set as default – Установки отсутствуют
В нашем случае выберем второй вариант и перейдем к следующему
шагу.
Шаг 4. В появившемся диалоговом окне Select Sheet to Import (Выбор
импортируемой страницы) выберем необходимую страницу и нажмем клавишу
ОК.
13

Рисунок 1.6 – Диалоговое окно Select Sheet to Import
Шаг 5. В следующем окне будет предложено указать размер таблицы, а
также предоставлена возможность оставить имеющиеся имена импортируемых
переменных и имена записей. Сделаем установки как показано на рисунке 1.7 и
нажмем кнопку ОК.
Рисунок 1.7 – Диалоговое окно Open Excel File
где: Имя файла: – File name:
Диапазон – Range
Столбцы: с 1 по 2 – Columns: from
Строки: с 1 по 20 – Rows: from
Имена наблюдений из первого столбца – Get cases names from first
column
Имена переменных из первой строки – Get variable names from first row
Импорт формата ячеек – Import cell formatting
Пройдя вышеперечисленные шаги, получим следующий лист рабочей книги
пакета STATISTICA (рисунок 1.8).
14

Рисунок 1.8 – Результат импорта файла табличного редактора Excel в
пакет STATISTICA
При желании пользователь может ввести заголовок для создаваемой
таблицы, для этого в главном меню необходимо ввести View Display Header
(Вид Вывод заголовка таблицы). Далее необходимо установить курсор на
белой строке таблицы между ее техническим заголовком (в котором указано
имя файла и размерность таблицы) и названием столбцов. Затем дважды
щелкнуть левой кнопкой мыши и ввести необходимый заголовок, в нашем
случае
– Динамика урожайности зерновых культур, ц/га. В результате
проделанной процедуры получаем следующий результат (рисунок 1.9).
Рисунок 1.9 – Результат ввода заголовка рабочей таблицы
1.7.2 Ручной ввод информации
15

Для иллюстрации создания файла данных вторым способом используем
данные приведенные в приложении 1 – таблица 1.2.
Шаг 1. После запуска программы STATISTICA в главном меню
выбрать File New (Файл Новый). В появившемся окне Create New Document
(Создание нового документа), рисунок 1.10, необходимо ввести количество
переменных Number of variables и объем совокупности Number of cases. В
данном случае исходная матрица данных 3 16.
Рисунок 1.10 – Окно задания параметров исходной матрицы данных
где:
In a new Workbook – Создание новой рабочей книги
As a stand-alone window – Создание листа рабочей книги
Шаг 2. После соответствующих установок переходим к рабочему листу
электронной таблицы (рисунок 1.11). В данном пакете переменные (столбцы)
имеют стандартные имена Var1, Var2, Var3, «, как правило, исследователь
заменяет их на необходимые обозначения, используемые в анализе. В нашем
случае необходимо заменить Var1 на Y, Var2 на X1, Var3 на X2. Для этого,
необходимо дважды щелкнуть по заглавию переменной (Var1) или выбрать в
главном меню Data Variable Specs… (Данные Спецификация переменных)
16

Рисунок 1.11 – Окно рабочей книги электронной таблицы
Шаг 3. В появившемся окне (рисунок 1.12) можно изменить шрифт, его
размер и т.д. В группе опций Display format (Выводимый формат) можно задать
формат данных содержащихся в соответствующим столбце. В поле Long name
(label or formula with Functions): (Длинное имя (вставка функции)) можно
внести дополнительную информацию по переменной или преобразовать
(создать новую) переменную введя формулу.
В данном случае ограничимся внесением в поле Name: (Имя:) вместо
обозначения Var1 букву Y и нажмем кнопку ОК. Далее вносим данные в поле
таблицы получаем результат представленный на рисунке 1.13.
17

Рисунок 1.12 – Окно индивидуальных установок переменной
Рисунок 1.13 – Результат создания файла данных в пакет STATISTICA
1.8 Форматирование файла данных
Часто при создании рабочей таблицы
(рабочей книги) возникает
необходимость добавления или удаления строк (столбцов).
Например, в таблицу 1.1 (приложение 1) необходимо добавить новый
уровень ряда за 1974г. равный 28,5 ц/га., для этого в главном меню выберем
Insert
Add Cases (Вставка Добавить значение/строку). В появившемся окне
(рисунок 1.14) укажем, сколько строк необходимо ввести (How many), в нашем
случае одно значение. Также необходимо указать после какой строки
произвести вставку нового значения
(Insert after cases), в нашем случае
последним значением является 19.
Рисунок 1.14 – Окно установок для вставки строки
18

В результате проведения данной процедуры получаем следующие
результаты (значение 1974г. и 28,5 вводится в ручную):
Рисунок 1.15 – Результат добавления нового значения (приведена часть
исходного окна)
Аналогичным образом производиться добавление новой переменной
Insert
Add Variables (Вставка Добавить переменную).
Чтобы удалить ненужной строки или столбец (индивидуальное значение
или переменную) можно поступить двумя способами:
Во-первых, чтобы удалить значение
(строку) необходимо навести
курсор мыши на заголовок строки, как показано на рисунке 1.16.
Рисунок
1.16
– Выделение удаляемой строки
(приведена часть
исходного окна)
Далее щелкнуть правой кнопкой мыши, в результате становится
доступным меню форматирования строки (рисунок 1.17).
Рисунок
1.17
– Меню форматирования строки
(приведена часть
исходного окна)
В данном меню выберем пункт Delete Cases… (Удалить строку), после
этой операции выделенная строка будет удалена из таблицы (аналогичным
образом удаляется из таблицы переменная).
Во-вторых, можно воспользоваться кнопками Vars и Cases на панели
Spreadsheet (Форматирование). Для удаления уровня ряда за 1974г. необходимо
19

выбрать Cases Delete… (Строка Удаление). В появившемся окне (рисунок
1.18) указать с какой строки (From cases) начинать удаление и по какую строку
(To cases), в нашем случае удалению подлежит одна строка с номером 20.
Рисунок 1.18 – Удаление строки (Delete Cases)
Процедура удаления переменной осуществляется аналогичным образом.
1.9 Сохранение файла данных
Для того чтобы сохранить созданный файл данных, необходимо
выбрать в строке главного меню пакета команду File
Save As. (Файл
Сохранить как), после этого откроется диалоговое окно Save As (Сохранить
как).
Рисунок 1.19 – Диалоговое окно Seve As (Сохранить как)
В данном окне укажем тип и название созданного файла, при этом по
умолчанию STATISTICA сохраняет файл данных в текущем каталоге с
расширением *.sta. В связи с тем, что в рамках курса
«Эконометрика»
выполняется 10 работ необходимо четко определить систему каталогов для
сохранения результатов анализа. Предлагается следующие обозначения папок:
20

Шифр группы
(специальности)
Ф.И.О.
ЛАБ РАБ1
ЛАБ РАБ2
ЛАБ РАБ3
ЛАБ РАБ4
«
ЛАБ РАБ10
Рисунок 1.20 – Система каталогов для сохранения результатов анализа
Стоит упомянуть о том, что файлы, получаемые при анализе данных в
пакете STATISTICA можно разделить на два типа:
1 Рабочая таблица (книга). В связи с этим рекомендуется все таблицы
сохранять под именем Таблица Х.x.sta. (X – номер выполняемой
работы, x – номер таблицы в данной работе).
2 Результаты расчетов и рисунки (графики) выводятся в Workbook
(Рабочая книга). В связи с этим данные этого типа рекомендуется
сохранять под именем Итоги X.x.stw
(X
номер выполняемой
работы, x – номер итоговой таблицы или рисунка в данной работе).
1.10 Построение графиков в пакета STATISTICA
Обширное количество графиков в пакете доступно в пункте меню
Graphs
(Графики). Воспользуемся данными, приведенными в таблице А.1
(приложение 1) и построим график динамики.
Шаг
1.
В главном меню выберем
2D Graphs Line Plots
(Variables)…(2DГрафики
Линейный график), в результате будет вызвано
следующее окно (рисунок 1.21).
21

Рисунок 1.21 – Окно установок линейного графика
Шаг 2. Прежде чем преступить непосредственно к построению
графиков необходимо выделить одно очень важное замечание: все действия по
анализу и визуализации данных необходимо начинать с указания переменных,
для этого используется кнопка Variables: (Переменные). В появившемся окне
Select Variables for Line Plot (Выбор переменных для построения линейного
графика) выберем переменную, на основе которой будет построен график , в
данном случае это Y.
Рисунок 1.22 – Окно выбора переменной для построения линейного
графика (Select Variables for Line Plot)
После выбора переменной на основе которой необходимо построить
график, получаем следующий результат:
22

Line Plot (Книга2 1v*19c)
28
26
24
22
20
18
16
14
12
10
1955г.
1959г.
1963г.
1967г.
1971г.
1957г.
1961г.
1965г.
1969г.
1973г.
Рисунок 1.23 – Динамика урожайности зерновых культур, ц/га
Воспользуемся данными, приведенными в таблице1.2 (приложение 1),
построим двухмерное и трехмерное корреляционное поле.
Для построения двухмерного корреляционного поля в главном меню
выберем Graphs
2D Graphs Scatterplots (Графики Двухмерные графики
Точечная диаграмма), в появившемся окне необходимо указать переменные,
как показано на рисунке 1.24.
Рисунок
1.24
– Окно выбора переменных для построения поля
корреляции (Select Variables for Scaterplot)
В результате получаем следующий график:
23

Scatterplot (Spreadsheet1 3v*16c)
160
140
120
100
80
60
40
20
0
0
10
20
30
40
50
60
70
X
Рисунок 1.25 – Двухмерное корреляционное поле
Для построения трехмерного корреляционного поля в главном меню
выберем Graphs
3D XYZ Graphs
Scatterplots
(Графики
Трехмерные
графики Точечная диаграмма), в результате получим следующий график.
3D Scatterplot (Spreadsheet4 3v*16c)
Рисунок 1.26 – Трехмерное корреляционное поле
24

Для корректировки
(вращения) полученного графика необходимо
выбрать View Rotete (Вид
Вращение) либо использовать кнопку
меню
Graphs Tools (Настройки графиков).
1.11 Тесты для самоконтроля
1 Выстройте в логической последовательности этапы эконометрического
моделирования:
верификация модели;
информационный;
априорный;
параметризация;
постановочный;
идентификация модели.
2 Эконометрика как наука получила свое начало от таких наук как:
математика, кибернетика, статистика;
математика, статистика, экономическая теория;
математика, статистика, экономика предприятия.
3 Выбор вида функциональной зависимости в уравнении регрессии называется:
агрегированием модели;
параметризацией модели;
линеаризацией модели;
структуризацией модели;
спецификацией модели.
4 Эконометрическая модель – это модель:
гипотетического экономического объекта;
конкретно-существующего экономического объекта, построенная на
гипотетических данных;
конкретно-существующего экономического объекта, построенная на
статистических данных.
5 На основе, каких данных можно оценить трендовую модель:
пространственных данных;
панельным данным;
временным рядам.
6 Можно ли совместно включать в множественное уравнение регрессии
факторы X1 и X2 если коэффициент корреляции между ними равен 0,87:
можно;
нельзя;
корреляция между ними не имеет ни какого значения.
7 Объем изучаемой совокупности равен
15, можно ли включать в
множественное уравнение регрессии 5 независимых факторов:
можно;
нельзя;
25

не влияет на результаты исследования.
8 Модель, отражающая положительную зависимость предложения денег от
ставки процента, является:
мезомоделью;
макромоделью;
микромоделью.
9 Чем точнее информация об исследуемом объекте, тем:
больше доля «черного ящика»;
меньше доля «черного ящика»;
качество информации не влияет на долю
«черного ящика» в
моделировании.
10 Какие бывают виды зависимости между переменными:
экономические;
функциональные;
статистические;
сильные.
1.12 Задание для самостоятельного выполнения
Задания для самостоятельной работы составлены в пяти вариантах,
номер варианта выбирается в соответствии с последней цифрой зачетной книжки
студента:
Таблица
1.1
– Задания
для самостоятельной работы по теме
«Организация данных и построение графиков в пакете STATISTICA»
Последняя цифра номера
1 и 6
2 и 7
3 и 8
4 и 9
5 и 0
зачетной книжки
Вариант №
1
2
3
4
5
Используя данные соответствующего варианта (приложение 2 и 3),
необходимо выполнить следующие этапы самостоятельной работы:
1 Введите данные в STATISTICA
(либо используя табличный
редактор, либо вводя данные непосредственно в поле пакета
программ);
2 Сохраните данные на диске (или ином носителе);
3 Постройте линейный график и двухмерное поле корреляции.
26

2 Выявление и измерение корреляционной связи
2.1 Цели и задачи лабораторной работы
В данной лабораторной работе на фактическом примере ознакомимся с
методами выявления и измерения корреляционной связи, при этом будут
решаться следующие задачи:
1 Провести процедуру сопоставление двух параллельных рядов;
2 Провести аналитическую группировку;
3 Построить корреляционное поле;
4 Рассчитать коэффициенты ранговой корреляции Спирмена и
Кендала;
5 Рассчитать парный линейный коэффициент корреляции Пирсона.
2.2 Понятие корреляции и методы ее выявления
Теория корреляции начала развиваться во второй половине XIX века и
особого расцвета достигла в XX в. Основноположниками теории корреляции
являются английские биометрики Ф. Гальтон и К.Пирсон в России их идеи
получили развитие в трудах А.А. Чупрова.
В эконометрике различают следующие варианты зависимостей:
1 парная корреляция – связь между двумя признаками, один из
которых результативный, а другой факторный;
2 частная корреляция – зависимость между результативным и одним
факторным признаком, при фиксированном значении других
факторных признаков;
3 множественная корреляция
зависимость результативного
признака от нескольких факторных признаков.
4 каноническая корреляция – зависимость группы результативного
признака от группы факторных признаков.
Использование методов корреляции позволяет решить следующие
задачи:
1 установить абсолютное изменение результативного признака за счет
изменения одного или комплекса факторов;
2 определить меру зависимости между результативным признаком и
одним из факторов при постоянном значении других;
3 установить меру относительного изменения зависимой переменной
на единицу относительного изменения фактора или факторов;
4 изучить общий объем вариации результативного признака и
определить роль каждого фактора в объяснении этого изменения;
5 оценить статистическую надежность выборочных показателей
корреляционной связи.
Для выявления наличия корреляционной связи можно назвать
несколько методов:
27

Методы выявления взаимосвязи между
признаками
Элементарные методы
Коэффициенты
Сопоставление двух
Парные коэффициенты
параллельных рядов
корреляции
Построение
Частные коэффициенты
аналитической
корреляции
группировки
Анализ поля
Множественный
корреляции
коэффициент корреляции
и детерминации
Рисунок
2.1
– Классификация методов выявления и анализа
взаимосвязей
В данной работе последовательно рассмотрим реализацию
приведенных на рисунке 2.1 методов в пакете STATISTICA.
2.2 Рекомендуемая литература
Для лучшего понимания материала изложенного в данной главе
необходимо дополнительно проанализировать следующие источники
литературы (см. список используемой литературы):
1 Вуколов Э.А. Основы статистического анализа. Практикум по
статистическим методам и исследованию операций с использованием
пакетов STATISTICA и EXCEL: Учебное пособие. – М.: ФОРУМ: ИНФРА-
М, 2004. – 464с. (см. стр. 115-121, 225-232)
2 Дрейнер Н., Смит Г. Прикладной регрессионный анализ. В 2-х кн. Пер. с
англ. – М.: Финансы статистика, 1986. – 366 с. (см. Т1 стр. 63-68)
3 Практикум по курсу «Статистикаª (в системе STATISTICA). Салин В.Н.,
Чурилова Э.Ю.
– М.:
«Издательский Домª Социальные отношенияª,
Издетельство «Перспективаª. 2002. – 188с. (см. стр. 71-96)
4 Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е
изд., испр. – Т. 2: Айвазян С.А. Основы эконометрики.
– М.: ЮНИТИ-
ДАНА, 2001. -432с. (см. стр. 46-47)
5 Эконометрика: Учебник / Под ред. И.И. Елиссевой. 2-е изд., перераб. и доп. –
М.: Финансы и статистика, 2005. – 576 с. (см. стр. 51-63, 99-106, 136-145)
28

2.3 Сопоставление двух параллельных рядов
Для реализации данного метода в пакете STATISTICA воспользуемся
данными по 25 предприятиям в качестве зависимой переменной выберем
стоимость произведенной продукции (тыс. руб.), в качестве не зависимой
переменной – среднегодовую стоимость основных производственных фондов
(тыс. р.), исходные данные содержатся в приложении 2.
Шаг 1. Введем данные в электронную таблицу пакета STATISTICA (см.
лабораторная 1).
Шаг 2. Упорядочим имеющиеся данные по возрастанию для этого в
главном меню выберем DateSort… (Данные Сортировка), либо нажмем
кнопку
на панели Spreadsheet (Форматирование).
Шаг 3. В появившемся окне (рисунок 2.2) необходимо указать по какой
переменной производится сортировка, в данном случае это Y (как видим на
рисунке
2.2, существует также возможность сортировать по нескольким
переменным).
Рисунок 2.2 – Опции сортировки данных
Шаг
4. На заключительном этапе рассматриваемого алгоритма
отобразим на одном графике упорядоченные переменные Y и X. Для этого в
главном меню выберем Graphs 2D GraphsLine Plots (Variables)…(Графики
2DГрафики Линейный график). В появившемся окне 2D Line Plots –
Variables обратимся к вкладке Advanced (Расширенные), далее в группе опций
Graph type: (Установки графика:) выделим Multiple (Множественный), с целью
одновременного выведения обеих переменных на график.
29

Line Plot (Spreadsheet1 10v*25c)
200
180
160
140
120
100
80
60
40
20
0
Y
Case 1
Case 5
Case 9
Case 13
Case 17
Case 21
Case 25
X
Case 3
Case 7
Case 11
Case 15
Case 19
Case 23
Рисунок 2.3 – Вариация показателей Y и X
Опираясь на полученный график (рисунок 2.3) можно сделать вывод,
что значения упорядоченной переменной Y растут, параллельно растут и
значения переменной X, соответственно можно сделать предположение о
наличии корреляционной связи между анализируемыми признаками.
2.4 Построение аналитической группировки
С целью изучения зависимости между среднегодовой стоимостью
основных производственных фондов X и объемом произведенной продукции Y
проведем процедуру аналитической группировки. Основанием группировки
будет являться стоимость произведенной продукции.
Шаг 1. Определим количество групп, на которые необходимо разбить
совокупность, для этого воспользуемся формулой Стерджесса:
n1
,
N
(2.1)
где: N – число единиц изучаемой совокупности.
в нашем случае получаем: n 13,322 lg 25
6
Шаг 2. Найдем величину интервала используя формулу:
X
X
max
min
h
(2.2)
n
где: Xmax, Xmin
– максимальное и минимальное значение единиц в изучаемой
совокупности
Для получения максимального и минимального значение в пакете,
выберем StatisticsBasic Statistics/Tables (СтатистикиОсновные статистики и
таблицы). В появившемся окне Basic Statistics and Tables (Основные статистики
и таблицы) необходимо выбрать пункт Descriptive statistics
(Описательные
статистики).
30

Рисунок 2.4 – Окно выбора основных статистик и таблиц
В окне Descriptive Statistics
(Описательные статистики) укажем по
каким переменным проводится расчет, для этого выберем кнопку Variables
(Переменные) и выделим Y и X.
Рисунок 2.5 – Окно установок дескриптивных статистики
Нажав кнопку Summary
(Вычислить) получим результаты,
представленные в таблице 2.1.
31

Таблица 2.1 – Результаты расчета описательных статистик
Valid N
Mean
Minimum
Maximum
Std.Dev.
(N набл.)
(Среднее)
(Минимум)
(Максимум)
(Стд.откл.)
Y
25
77,76
7
179
48,231
X
25
62,52
8
147
35,831
Шаг 3. Согласно полученным данным размах вариации будет равен
h=(179-7)/6=28,6. Соответственно величины интервалов будет следующие: [7,
35,67); [35,67,
64,3); [64,3,
93,00); [93,00, 121,67); [121,67, 150,33); [150,33,
179,00].
Шаг 4. Прежде чем приступить непосредственно к построению
группировки в пакете, образуем новую переменную
(следующую после
переменной X), для этого выберем InsertAdd Variables (Вставка Добавить
переменную). Далее в окне Variable 3 (Переменная 3) заменим Var 3 на Y1, а в
поле Long name (label or formula with Functions):
(Длинное имя (вставка
функции)) введем выражение =v1 (в результате выполнения данного действия
будет выполнен перенос всех данных из первого столбца в текущий) (рисунок
2.6).
Рисунок 2.6 – Окно установок переменной
Прежде чем перейти к дальнейшему выполнению алгоритма построения
аналитической группировки сделаем следующее замечание: так как
переменные используемые исследователем могут быть обозначены как угодно,
в данной программе все переменные, вводимые в поле Long name,
обозначаются как v1, v2, v3, и т.д. Соответственно очень важно при
32

образовании новой переменной или создании формул следить за
правильностью ссылки на нужные переменные.
Шаг 5. Чтобы произвести группировку по переменной Y1 нужно ее
выделить, щелкнув по заглавию, далее в главном меню выбрать DateRecode
(ДанныеПерекодировка). В появившемся окне Recode Values of Variable 3
(Перегруппировка значений переменной
3)
укажем интервалы
группировки, а в группе опций New Value
(Новое значение)
последовательно введем номера групп в которые попали предприятия – 1, 2,
3, 4, 5, 6 (рисунок 2.7).
То есть должны получить следующее:
1 – v3>=7 and v3<35,67;
2 – v3>=35,67 and v3<64,33;
3 – v3>=64,33 and v3<93,00;
4 – v3>=93,00 and v3<121,67;
5 – v3>=121,67 and v3<150,33;
6 – v3>=150,33 and v3<=179,00.
При вводе интервалов проследите чтобы все группы были заполнены,
для этого используйте прокрутку окна.
Рисунок 2.7 – Запись границ интервалов
Шаг 6. Полученные данные необходимо упорядочить в порядке
возрастания по переменной Y1.
Шаг 7. Для определения описательных статистик по группам
предприятий вернемся в модуль Basic Stat/Tables
(рисунок
2.4), в меню
стартовой панели модуля выберите опцию Breakdown and one-way ANOVA
(Разбиение и однофакторный дисперсионный анализ).
33

Рисунок 2.8 – Установки для проведения группировки
В качестве группирующей переменной (Grouping) выберем Y1, а в
качестве зависимых переменных (Dependent): Y и X.
Шаг 8. В появившемся окне (рисунок 2.9) необходимо выбрать кнопку
Summary: Table of statistics (Итоговая таблицы и статистики).
Рисунок
2.9
– Окно результатов классификации и дисперсионного
анализа
В полученной таблице 2.2 содержатся все необходимые результаты по
группам предприятий для переменных Y и X.
34

Таблица 2.2 – Результаты проведения аналитической группировки
Y
Y
X
Y
X Means
X
Y1
Means
Std. Dev
Std. Dev
N
(Средняя)
N
(Средняя)
(Ст. Откл)
(Ст. Откл)
1
21,8
5
11,5
22,2
5
10,7
2
48,5
6
7,1
43,8
6
6,3
3
74,8
6
8,6
60,3
6
13,2
4
111,3
4
6,7
79,0
4
8,3
5
150,0
1
0,0
128,0
1
0,0
6
166,7
3
12,0
127,7
3
19,0
All Grup
77,8
25
48,2
62,5
25
35,8
В столбце Means
(Средние) содержатся значения средних
арифметических по каждой группе, N
– содержится количество
индивидуальных значений вошедших в конкретную группу, Std. Dev.
стандартное отклонение.
Согласно приведенным в таблице
2.2, данным наблюдается рост
групповых средних значений переменной Y, также наблюдается рост средних
значений по переменной X, т.е. можно предположить наличие прямой
корреляционной зависимости между рассматриваемыми признаками.
2.5 Графический метод (построение поля корреляции)
Для построения двухмерного корреляционного поля используем данные
приложения 4, выберем Graphs2D GraphsScatterplots (см. лабораторная 1).
Деле выберем кнопку Variables
(переменные) в появившемся окне Select
Variables for Scatterplot (Выделение переменных для корреляционного поля)
укажем переменные которые будет располагаться по оси OY и OX.
35

Scatterplot (Spreadsheet1 4v*25c)
200
180
160
140
120
100
80
60
40
20
0
0
20
40
60
80
100
120
140
160
X
Рисунок 2.10 – Двухмерное корреляционное поле
Согласно приведенному графику, с ростом значений Y наблюдается рост
значений X, т.е. имеем прямую взаимосвязь между признаками.
2.6 Расчет коэффициента ранговой корреляции Спирмена и
Кендала
Опираясь на данные, приведенные в приложении
4, рассчитаем
значения коэффициентов ранговой корреляции.
Шаг 1. Образуем, дополнительные переменные Y2 и X2, в которые
переносим значения с первого и второго столбца (Y и X). Сделать это можно
двумя способами: во-первых, скопировав данные с помощью команд Copy
(Копировать) и Paste
(Вставить). Во-вторых, воспользоваться полем Long
Name: окна настройки параметров переменных и ввести – для Y2 – =v1, для X2 –
=v2.
Шаг
2. Так как ранговые коэффициенты строятся на основе
ранжированных значений необходимо провести ранжирование имеющейся
совокупности. Для этого в главном меню выберем DateRankVariables
(ДанныеРангПеременные) в окне Rank Order Values
(Ранжирование
совокупности).
36

Рисунок 2.11 – Окно установок процедуры ранжирования
где: Присвоить ранг 1 – Assign rank 1 to
наименьшему значению – smallest value
наибольшему значению – largest value
Ранги для совпадающих значений – Ranks for ties
средний – mean
наименьший – low
наибольший – high
последовательный – sequential
Тип рангов – Type of rank
обычный – regular
дробный – fractional
дробный в % – fractional as %
Шаг
3.
В главном меню наберем StatisticsNonparametrics
Correlations
(Spearman,
Kendall
tau,
gamma)
(Вычисления
Непараметрические Корреляция). В появившемся окне выберем закладку
Advanced
(Расширенные) что позволит рассчитать три коэффициента:
корреляцию Спирмена R, статистику Тay Кендалла и статистику Гамма.
Шаг 3. Выберем переменную, по которой необходимо провести расчет,
для этого нажмем кнопку Variables (в качестве переменных выберем Y2 и X2).
Соответственно переменная Y2 будет выведена первой (List 1), а переменная
X2 будет указана второй (List 2).
37

Рисунок 2.12 – Окно выбора расчета непараметрических показателей
корреляции
Шаг 4. Рассчитаем ранговый коэффициент корреляции Спирмена, для
этого выберем кнопки Spearman R
(коэффициент Спирмена), получим
следующие результаты.
Таблица 2.3 – Результаты оценивания значения коэффициента Спирмена
Valid N
Spearman R
p-level
t(N-2)
(Число набл.)
(Спирмена R)
(p-уров.)
Y2 & X2
25
0,978
22,314
0,000
Согласно данным, приведенным в таблице 2.3, коэффициент Спирмена
получен равным
0,978, т.е. наблюдается прямая сильная корреляционная
взаимосвязь между Y и X.
2.7 Расчет парного линейного коэффициента корреляции Пирсона
Для расчета значения парного линейного коэффициента корреляции
необходимо в главном меню выбрать StatisticsBasic Statistics/Tables
(СтатистикиОсновные статистики и таблицы). В появившемся окне Basic
Statistics and Tables
(Основные статистики и таблицы) необходимо указать
переменные, по которым будет проведен расчет, для этого выберем кнопку One
variable list
(Один список), далее Summary: Correlation matrix (Вычислить:
Корреляционная матрица).
38

Рисунок 2.13 – Окно установок для расчета парных коэффициентов
корреляции
Таблица 2.4 – Матрица парных коэффициентов корреляции
Y
X
Y
1,000
0,977
X
0,977
1,000
Согласно полученным результатам, между исследуемыми показателями
существует тесная линейная связь (коэффициент корреляции равен 0,977).
2.8 Тесты для самоконтроля
1 Какой из перечисленных методов не направлен на выявление корреляционной
зависимости между переменными?
построение корреляционного поля;
построение аналитической группировки;
сопоставление двух параллельных рядов;
смыкание рядов динамки.
n
2
6
d
i
i1
2 Предложенная формула
1
является:
2
n(n
1)
парным коэффициентом корреляции;
коэффициентом корреляции рангов Спирмена;
коэффициентом детерминации.
39

ad bc
3 Приведенная формула
используется для расчета:
(ab)(b
d)(ac)(c
d
)
коэффициента ассоциации Д.Юла;
коэффициента контингенции К. Пирсона;
коэффициента взаимной сопряженности К. Пирсонна.
2
4 Приведенная формула
2
необходима для расчета:
1
коэффициента ассоциации Д.Юла;
коэффициента контингенции К. Пирсона;
коэффициента взаимной сопряженности К. Пирсонна.
5 Основоположником теории корреляции являются:
Ф. Гальтон;
Р. Фриш;
К. Пирсон;
В. Кетли.
6 Какой из перечисленных методов не направлен на выявление корреляционной
зависимости между переменными?
построение корреляционного поля;
построение аналитической группировки;
сопоставление двух параллельных рядов;
смыкание рядов динамики.
7 Парный линейный коэффициент корреляции принимает значения
в
интервале:
от -2 до 0;
от 0 до 1 ;
от -1 до +1.
8 Парный коэффициент детерминации принимает значения в интервале:
от -2 до +2;
от 0 до 1;
от -1 до +1.
9 Отрицательный знак парного коэффициента корреляции указывает на:
отсутствие зависимость x и y;
обратную зависимость между x и y;
прямую зависимость между x и y.
2
10 Предложенная формула

является:
2
y
коэффициентом корреляции;
коэффициентом Фихнера;
корреляционным отношением.
40

2.9 Задания для самостоятельного выполнения
Задания для самостоятельной работы составлены в пяти вариантах,
номер варианта выбирается в соответствии с последней цифрой зачетной книжки
студента:
Таблица 2.5 – Задания для самостоятельной работы по теме «Выявление
и измерение корреляционной связи»
Последняя цифра номера
1 и 6
2 и 7
3 и 8
4 и 9
5 и 0
зачетной книжки
Вариант №
1
2
3
4
5
Используя данные соответствующего варианта
(приложение
5),
необходимо выполнить следующие этапы самостоятельной работы:
1 Ввести данные в STATISTICA (либо используя табличный редактор,
либо вводя данные непосредственно в поле пакета программ, либо
непосредственно скопировать из соответствующего приложения);
2 Провести сопоставление двух параллельных рядов;
3 Построить аналитическую группировку;
4 Построить поле корреляции;
5 Оценить коэффициент ранговой корреляции Кендала Тау;
6 Оценить парный коэффициент корреляции Пирсона.
41

3 Построение классической линейной регрессии
3.1 Цели и задачи лабораторной работы
В данной лабораторной работе на практическом примере рассмотрим
этапы построения уравнения классической линейной регрессии, при этом будут
решаться следующие задачи:
1 Рассчитать описательные статистики, характеризующие изучаемые
данные;
2 Определить парные коэффициенты корреляции и на их основе
выявить факторы, оказывающие наибольшее влияние на
результативный показатель;
3 Оценить регрессионное уравнение имеющимися факторами.
Проанализировать множественные коэффициенты корреляции и
детерминации, по полученной модели;
4 Оценить качество модели на основе t-статистики Стьюдента и F
статистики Фишера.
3.2 Понятие классической линейной регрессии
В данной глава остановимся на рассмотрении понятия классической
линейной регрессии, при этом рассматриваются два возможных случая:
Множественная регрессия представляет собой модель результативного
признака с двумя и большим числом факторов, т. е. модель вида:
(3.1)
Парная линейная регрессия представляет собой частный случай
множественной регрессии и есть модель между двумя переменными – у и х, т.е.
имеем:
(3.2)
где: i =1, 2, «, n
n – объем изучаемой совокупности;
~
y
данные полученные в результате построения модели
(теоретические уровни, модельные данные)
y – зависимая переменная;
x – независимая переменная;
a0, a1 искомые параметры уравнения;
εi – случайная величина (возмущение, остатки, отклонения).
Основным методом решения задачи нахождения параметров а0 и а1
уравнения связи является метод наименьших квадратов (МНК). Он состоит в
минимизации суммы квадратов отклонений фактических значений от значений,
вычисленных по уравнению связи.
Основным параметром парного уравнения регрессии является параметр
а1
(в случая множественной регрессии аj где j
= 1,
2,
«, m) который
42

характеризует силу связи между вариацией факторного признака x и вариацией
результативного признака y;
Иногда в эконометрических исследованиях возникают ситуации, в
которых использование параметров аj не дает желаемого результата, так как
коэффициент имеет размерность совпадающую с анализируемым показателем и
не пригоден для выявления наибольшего (наименьшего) влияния той или иной
независимой переменной. В этом случае используют
– коэффициент или
коэффициент эластичности.
– коэффициент
(стандартизованный коэффициент регрессии)
показывает, на сколько среднеквадратических отклонений
() изменится
результативный признак, если величина факторного признака изменяются на
одно среднеквадратическое отклонение.
xj
а
(3.3)
ji
j
у
Коэффициенты условно-чистой регрессии полезно выразить в виде
относительных сравниваемых показателей связи, коэффициентов эластичности:
xj
Э
а
(3.4)
j
j
у
Значение коэффициента определяет, на сколько процентов в среднем
изменится значение зависимой переменной y если независимая переменная x
изменится на 1%.
В большинстве случаев при построении модели приходится
пользоваться выборочными данными, поэтому прежде чем приступать к
использованию модели необходимо убедится ее адекватности фактическим
данным (анализируемому явлению). Для этих целей используют t-критерий
Стьюдента и F-критерий Фишера.
3.3 Рекомендуемая литература
Для лучшего понимания материала изложенного в данной главе
необходимо дополнительно проанализировать следующие источники
литературы (см. список используемой литературы):
1 Афанасьев В.Н., Гуляева Т.И., Юзбашев М.М. Эконометрика: Учебник /
Под общ. редакцией М.М. Юзбашева. – М.: Финансы и статистика, 2004.
(см. стр. 30-61, 77-91)
2
Боровиков, В.П. Программа STATISTICA для студентов и инженеров. – 2-е
изд. – М.: КомпьютерПресс, 2001. – 301с. – ISBN 5-89959-080-7. (см. стр.
125-161)
3
Бородич, С.А. Эконометрика: учеб. пособие / С.А. Бородич. – 3 -е изд.,
стер. – Мн.: Новое знание, 2006. – 408 с. ISBN 985-475-206-2 (см. стр. 98-
154)
4 Кремер Н, Путко Б. Эконометрика: Учебник для вузов. – М.: ЮНИТИ-
ДАНА. 2003. – 311с. (см. стр. 50-108)
43

5
Практикум по курсу «Статистика» (в системе STATISTICA). Салин В.Н.,
Чурилова Э.Ю.
– М.:
«Издательский Дом» Социальные отношения»,
Издетельство «Перспектива». 2002. – 188с. (см. стр. 96-122)
6 Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е
изд., испр. – Т. 2: Айвазян С.А. Основы эконометрики.
– М.: ЮНИТИ-
ДАНА, 2001. -432с. (см. стр. 49-53)
7 Эконометрика: Учебник / Под ред. И.И. Елиссевой. 2-е изд., перераб. и доп.
– М.: Финансы и статистика, 2005. – 576 с. (см. стр. 43-155)
3.4 Расчет описательных (дескриптивных) статик
В пакете STATISTICA 6.0 существует возможность расчета огромного
числа дескриптивных (описательных, элементарных) статистик (максимальные,
минимальные, средние, показатели распределения и эксцесса и т.д.).
Прежде чем приступить к выполнению данного пункта, необходимо
внести данные содержащиеся в приложении 6 в рабочую таблицу пакета и
сохранить их на жестом диске (см. лабораторная работа 1).
Для расчета описательных статистик необходимо:
Шаг 1. В главном меню выбирать StatisticsBasic Statistics/Tables
(Вычисления Основные статистики и таблицы).
Шаг 2. В окне Basic Statistics and Tables выбирать первый пункт
Descriptive statistics (Описательные статистики).
Шаг 3. В окне Descriptive statistics выбирать вкладку Advanced
(Расширенные). Данное окно разделено на три группы показателей (рисунок
3.1):
1) Location, valid N (Объем совокупности) – содержатся структурные и
степенные средние величины: Valid N (Число наблюдений N), Mean (Средняя),
Sum (Сумма), Median (Медиана), Mode (Мода), Geom. Mean (Геометрическая
средняя), Harm. Mean (Гармоническая средняя).
2) Variation, moments
(Вариация, момент)
– содержатся показатели
относящиеся к вариации изучаемого признака и отражающие распределение
переменной:
Standard Deviation
(Стандартное Отклонение), Variance
(Вариация), Std. err. of mean
(Стандартная ошибка среднего), Conf. limits for
means (Доверительная граница для среднего), Skewness (Ассиметрия), Std. err.,
Skewness
(Стандартная ошибка Ассиметрии), Kurtosis
(Эксцесс), Std. err.,
Kurtosis (Стандартная ошибка Эксцесса);
3) Percentiles, ranges (Персентели, ранги) – в группе собраны следующие
показатели Minimum & Maximum (Максимум и минимум), Lower & upper
quartiles (Нижний и верхний квартили), Percentile boundaries ( ), Range (Ранг),
Quartile range (Ранг квартиля).
Шаг 4. Выберем для анализа следующие показатели (рисунок 3.1): Valid
N (Число наблюдений N), Mean (Средняя арифметическая), Standard Deviation
(Стандартное Отклонение), Skewness
(Ассиметрия),
Kurtosis
(Эксцесс),
Minimum & Maximum (Максимум и минимум).
44

После нажатия кнопки Summary (Вычислить) получаем следующие
результаты:
Таблица 3.1 – Описательная статистика
Valid N
Mean
Std.Dev.
Skewness
Kurtosis
(N набл.)
(Среднее)
(Стд.откл.)
(Асимметрия)
(Эксцесс)
Y
15
37,667
11,684
0,266
-1,588
X1
15
32,400
13,809
0,225
0,675
X2
15
47,533
6,621
-0,442
-1,125
Рисунок
3.1
– Окно выбора
(установок) описательных статистик
(приведена часть исходного окна)
Для симметричного распределения, в частности для нормального
распределения, асимметрия (Skewness) равна нулю. Если асимметрия больше
трех, то распределение имеет более «длинный правый хвост». Если асимметрия
меньше трех, то распределение имеет более «длинный левый хвост».
В нашем примере для всех переменных значение асимметрии близко к
нулю. Это указывает на то, что распределения переменных Y, Х1 и Х2 близки к
симметричным.
Если эксцесс (Kurtosis) больше нуля, то распределение островершинное
относительно нормального. Если эксцесс меньше нуля, то распределение
«туповершинное» относительно нормального. В нашем случае распределение
переменных Y и Х2 туповершинное, а переменной X1 – островершинное.
Более точный ответ о нормальности распределения можно получить,
если обратится к вкладке Normality (Нормальность) в окне Descriptive statistics
(рисунок 3.2).
В пакете программ для выявления нормальности распределения
исследуемых показателей используются следующие критерии:
45

Kolmogorov-Smirnov & Lillifors test for normality
(Критерий
Колмогорова-Смирного и Критерий Лиллиефорса) согласно этому критерию,
если вычисленная D-статистика значима, то гипотеза о том, что данные
имеют нормальный закон распределения, должна быть отвергнута. Иначе,
гипотеза о нормальном распределении не отвергается
Shapiro-Wilk’s W test – (W Критерий Шапиро-Уилкса) согласно этому
критерию, если рассчитанная по данным наблюдений W-статистика значима,
то гипотеза о том, что данные имеют нормальный закон распределения,
должна быть отвергнута.
Таким образом, если вероятность отклонения гипотезы о значимости
D-статистики имеет значения большие выбранного уровня значимости
(обычно
=
0,01,
0,05 или
0,1), то гипотеза о нормальном законе
распределения данных принимается с вероятностью (1 – ).
Рисунок
3.2
– Окно установок вычисления характеристики
нормальности распределения (приведена часть исходного окна)
Для расчета перечисленных статистик установим, галочки как
показано на рисунке 3.2, и выберем кнопку Frequency tables (Таблицы
частот). В рабочей книге
(Workbook) будут выведены три таблицы
соответствии с количеством анализируемых переменных), рассмотрим
результаты расчета по переменной Y.
46

Рисунок
3.3
– Результаты оценки критериев нормальности
распределения переменных (приведена часть исходно окна)
В верхней части окна приведены значения показателей, в данном случае
и критерий Колмогороса-Смернова и Шапиро-Уилкса получены
незначимыми и соответственно нельзя считать распределение переменной Y
нормальным.
3.5 Построение классической линейной регрессии
Для построения линейной регрессии (парной и множественной), а также
для оценки параметров линейных и нелинейных трендов в пакете STATISTICA
6.0 используется модуль Multiple Regression (Множественная регрессия).
Проведем построение уравнения регрессии зависимости фондоотдачи
от среднечасовой производительности труда и удельного веса активной части
ОПФ (приложение Е).
Шаг 1. В главном меню выберем: StatisticsMultiple Regression
(Статистика Множественная регрессия).
47

Рисунок 3.4 – Окно Multiple Linear Regression (Множественная линейная
регрессия)
Шаг 2. В активном окне инициируем кнопку Variables (Переменные) и
укажем зависимую и не зависимую переменную. В качестве зависимой
переменной (Dependent var.) необходимо указать производительность труда –
Y, в качестве не зависимых переменных (Independent var.) будут выступать X1
и X2.
Рисунок 3.5 – Окно выбора зависимой и не зависимой переменных
Шаг 3. Выбираем опцию Review descriptive statistics, correlation matrix
(Описательные статистик и матрица корреляции) и нажмем кнопку ОК.
Шаг 4. В появившемся окне Review Descriptive Statistic необходимо
выбрать вкладку Advanced.
48

Рисунок 3.6 – Окно установок описательных статистик и корреляции
После чего становятся доступными следующие таблицы: Means &
Standard Deviation
(Средняя и стандартное отклонение), Correlations
(Корреляция), Covariances (Ковариация), Box & whisker plot ( ), Matrix plot of
correlations (Матрица диаграмм рассеяния).
Шаг 5. Выберем кнопку Correlations, в результате получим матрицу,
содержащую значения парных коэффициентов корреляции (таблица 3.2).
Значения, представленные таблице показывают, что фактор X2
оказывает сильное положительное влияние на зависимую переменную Y (т.к.
значение на пересечении соответствующего столбца и строки равно 0,868),
фактор X1 оказывает слабое отрицательное влияние. Между переменными Х1 и
Х2 связь практически отсутствует (значение коэффициента корреляции -0,117
близко к нулю).
Таблица 3.2 – Матрица парных коэффициентов корреляции
X1
X2
Y
X1
1,000
-0,117
-0,351
X2
-0,117
1,000
0,868
Y
-0,351
0,868
1,000
Также можно представить полученные результаты в графическом виде,
для этого выбираем кнопку Matrix plot of correlations (рисунок 3.6), полученный
результат представлен на рисунке 3.7.
49

Correlations (Лаб 3 3v*15c)
X1
X2
Y
Рисунок 3.7 – Матрица диаграмм рассеяния
Интерпретация приведенного рисунка такова: чем ближе к
теоретической линии регрессии сгруппированы точки, тем теснее связь между
изучаемыми показателями.
Шаг 6. Вернемся в окно Multiple Linear Regression (рисунок 3.4), для
этого в окне Review Descriptive Statistic выберем кнопку Cancel (Отмена), далее
снимем флажок с опции Review descriptive statistics, correlation matrix.
Нажав кнопку ОК, перейдем в следующее окно, содержащее результаты
построения модели.
50

Рисунок 3.8 – Окно с результатами оценивания регрессии
где:
Quick
(Быстрый)
– данная вкладка предназначена для неопытных
пользователей так как в ней доступна только одна кнопка Summary:
Regression results (Итоговая таблица регрессии). После ее инициализации в
рабочую книгу выводятся две таблицы: таблица с коэффициентами и
критериями, характеризующими качество уравнения регрессии; таблица с
параметрами уравнения регрессии.
Advanced (Расширенные статистики) – вкладка предназначена для
опытных исследователей, содержит дополнительные инструменты
тестирования оцененной регрессионной модели.
Summary: Regression results (Итоговая таблица регрессии)
ANOVA (Overall goodness of fit) (Дисперсионный анализ)
Covariance of coefficients (Ковариации коэффициентов)
Current sweep matrix (Текущая матрица выметания)
Partial correlations (Частные корреляции)
Redundancy (Избыточность)
Stepwise regression summary (Итоги по шагам)
ANOVA adjusted for mean (Скорректированный на среднее)
Residuals/assumptions/prediction
(Остатки/предсказанные/наблюдаемые
значения) – вкладка содержит алгоритмы анализа отклонений построенной
модели, дескриптивные статистики, а также возможность рассчитывать
прогнозные значения зависимой переменной (особенности данной вкладки
будут рассмотрены ниже).
Шаг 7. Выбрав кнопку Summary: Regression results (Вычислить: Результаты
построения регрессии) перейдем в Workbook (Рабочая книга) где будут
представлены две таблицы содержащие оцененные параметры модели и
основные показатели адекватности построения регрессии.
Таблица
3.3
– Показатели адекватности множественного уравнения
регрессии
Value
(Значение)
Multiple R (Множест. R)
0,903
Multiple R? ((Множест. R2)
0,816
Adjusted R? (Скорр. R2)
0,785
F(2,12)
26,616
p
0,000
Std.Err. of Estimate (Стд. Ош. Оценки)
5,413
Multiple R
– Множественный коэффициент корреляции. Данный
показатель является обобщением коэффициента линейной парной корреляции
51

и отражает тесноту связи между зависимой переменной и одновременно
несколькими независимыми переменными. В отличие от парного
коэффициента корреляции коэффициент множественной корреляции всегда
неотрицателен и изменяется от 0 до 1. Чем ближе значение R к 1, тем большее
одновременное влияние оказывают независимые переменные.
В данном случае множественный коэффициент корреляции получен
равным
0,903 показывает, что связь между вариацией результативного
показателя Y и вариацией факторных признаков X1 и X2 сильная.
Multiple R? – Множественный коэффициент детерминации. Показатель
измеряет долю полной вариации переменной Y, объясняемую множественной
регрессией. Величина R2 изменяется от 0 до 1. Если значение R2 равно 1, то
между переменными существует точная линейная связь. Если R2 равно нулю, то
статистическая линейная связь отсутствует.
Согласно данным таблицы 3.3, R2 = 0,816 свидетельствует, что 81,6%
вариации переменной Y объясняется факторами X1, X2.
Adjusted R?
– Скорректированный коэффициент множественной
2
детерминации
R
. Важным свойством коэффициента детерминации является
то, что R2 – неубывающая функция от количества факторов, входящих в модель.
Поэтому для сравнения коэффициентов детерминации разных моделей надо
уравнивать количество факторов. Для сравнения моделей по коэффициенту
детерминации корректируют коэффициент детерминации так, чтобы он как
можно меньше зависел от количества факторов. Скорректированный
коэффициент корреляции может быть использован для выбора лучшей модели.
F(2,12)
F– статистика Фишера, служит для проверки модели на
адекватность. Для проверки модели на адекватность с помощью F – статистики
Фишера используют значение вероятности p. Если значение вероятности
меньше принятого значения , например, 0,5, то нулевая гипотеза отвергается.
Так в рассматриваемом примере p практически равна нулю. Следовательно,
нулевая гипотеза о равенстве нулю всех коэффициентов регрессии отвергается.
К аналогичному выводу можно прейти, если сопоставить табличное значение
критерия при =0,05 и v1=2, v2=12 равное 3,88 с фактическим значением
F(2,12)= 26,616, т.е. получаем Fтаб < Fфакт следовательно модель в целом
статистически значима.
Необходимо обратить внимание на то, что F-тест является суммарным
тестом. Поэтому может возникнуть ситуация когда все t-статистики являются
незначимыми, а F-статистика показывает адекватность модели, что и
наблюдается в нашем случае
(таблицу
3.4), отсюда можно сделать
предположение о наличии мультиколлениарности (понятие будет введено в
последующих лабораторных работах)
Таблица
3.4
– Результаты оценивания множественного уравнения
регрессии
Beta
Std.Err. of
B
Std.Err.
t(12)
p-level
52

(БЕТА)
Betta
of B
( p-уров.)
(Стд.Ош.
(Стд.Ош. B)
БЕТА)
Intercept
-25,686
11,459
-2,242
0,045
(Св.член)
X1
-0,253
0,125
-0,214
0,105
-2,032
0,065
X2
0,838
0,125
1,479
0,220
6,723
0,000
Рассмотрим результаты оценки параметров уравнения регрессии по
столбцам. В первом столбце перечислены члены регрессионного уравнения,
при этом Intercept это свободный член уравнения.
Во втором столбце содержатся -коэффициент, являются отвлеченными
(абстрактными) величинами и указывают на сколько среднеквадратических
отклонений
увеличится
зависимая
переменная
при изменении
соответствующего независимой переменной на
1 среднеквадратическое
отклонение. На практике данный показатель используется для выявления
фактора оказывающего наибольшее влияние на зависимую переменную. В
нашем случае наибольшее (положительное) влияние оказывает показатель X2
(2=0,838).
В четвертом столбце содержатся значения параметров aj оцененного
уравнения вида 3.1, т.е. в данном случае получаем следующую регрессионную
модель:
Y~
-25,686 – 0,214X1ij + 1,479X2ij
ij
Полученные
значения
параметров
уравнения
можно
проинтерпретировать следующим образом. Если при прочих равных условиях
(а1
= – 0,214) среднечасовая производительность увеличится на
1 ед., то
фондоотдача уменьшится на 0,214 руб./чел.
Если при прочих равных условиях удельный вес активной части ОПФ
(а2 = 1,479) увеличится на 1 процентный пункт, то фондоотдача увеличится на
1,479 руб./чел..
Std. Error (Standart error) указаны стандартные ошибки коэффициентов
уравнения. Стандартные ошибки показывают статистическую надежность
коэффициента. Если стандартные ошибки имеют нормальное распределение, то
примерно в 2 случаях из 3 истинный коэффициент регрессора находится в
пределах одной стандартной ошибки соответствующего коэффициента, и
примерно в 95 случаях из 100 в пределах двух стандартных ошибок. Значение
стандартных ошибок используем для построения доверительных интервалов.
t(12)
– выводит расчетное значение t
– статистики Стьюдента. Ее
значение используется для проверки значимости соответствующего
коэффициента.
p-level
– показывает вероятность принять или отвергнуть гипотезу о
равенстве нулю соответствующего коэффициента. При этом предполагается,
что ошибки имеют нормальное или асимптотически нормальное
53

распределение. Значения вероятности, указанные в таблице известны в
статистике как уровни значимости . Если значение вероятности ниже уровня
значимости , то гипотеза Н0 отвергается и соответствующий коэффициент не
равен нулю.
В рассматриваемом примере параметр a2 при переменной X2 значим при
уровне значимости больше, чем 0,0002. Коэффициент a1 получен не значим
при уровне = 0,05, т.к. значение вероятности 0,065 больше 0,05.
Так же выявить статистическую значимость параметров можно
использовав табличное значение t-критерия Стьюдента, в нашем случае при
=0,05 и df=12 значение равно 2,1788, т.е. получаем:
а0 – -2,242 > 2,1788 параметр статистически значим;
а1 – -2,032 < 2,1788 параметр статистически не значим;
а2 – 6,723 > 2,1788 параметр статистически значим;
Шаг 8. Так как оцененная множественная регрессионная модель
получена, незначима по параметру при X1, необходимо исключить из
рассмотрения фактор X1. Для этого в активном окне выберем кнопку Cancel,
перейдя в стартовое окно, далее в качестве независимой переменной
(Independent var.) укажем X2. Получаем следующие результаты:
Таблица 3.5 – Показатели адекватности парного уравнения регрессии
Value (Значение)
Multiple R (Множест. R)
0,868
Multiple R? ((Множест. R2)
0,753
Adjusted R? (Скорр. R2)
0,734
F(2,13)
39,571
p
0,000
Std.Err. of Estimate (Стд. Ош. Оценки)
6,030
Сравнивая показатели, полученные по первой и второй моделям можно
заметить, что значения по второй модели снизились, но при этом модель в
общем можно считать статистически значимой.
Согласно данным, приведенным в таблице 3.5, параметры парной
регрессионной модель получены статистически значимыми.
Таблица 3.6 – Результаты оценивания парного уравнения регрессии
Std.Err. of
Std.Err.
Beta
Betta
p-level
B
of B
t(13)
(БЕТА)
(Стд.Ош.
( p-уров.)
(Стд.Ош. B)
БЕТА)
Intercept
-35,110
11,673
-3,008
0,010
(Св.член)
54

X2
0,868
0,138
1,531
0,243
6,291
0,000
Оценив вторую модель, можно утверждать, что она пригодна для
практического использования, так как параметры модели статистически
значимы по t-критерию Стьюдента (таблица 3.6), а уравнение в целом проходит
тест по F-критерию Фишера (таблица 3.5).
3.6 Прогнозирование (имитация) неизвестных значений зависимой
переменной
Воспользуемся полученным парным линейным регрессионным
уравнением и проведем экстраполирование значений фондоотдачи при
различных вариантах удельного веса активной части ОПФ.
Шаг 1. Для этого в окне Multiple Regression Results (рисунок 3.8)
необходимо
выбрать
вкладку
Residuals/assumptions/prediction
(Отклонения/распределения/предсказания) и воспользоваться кнопкой Predict
dependent variable (Прогнозирование зависимой переменной).
Рисунок 3.9 – Окно установок прогноза (приведена часть исходного
окна)
Шаг 2. Для того чтобы определить неизвестное значение независимой
переменной в пространственной модели необходимо задать значение
независимой переменной. Логичным было предположить, что для увеличения
фондоотдачи среднегодовая стоимость ОПФ должна была как можно выше, т.е.
стремиться к максимуму в нашем случае X2max = 55. Внесем данное значение в
окно Specify values for indep. vars
(Определение неизвестных значений для
зависимой переменной).
55

Рисунок
3.10
– Прогнозирование неизвестных значений зависимой
переменной
После нажатия кнопки ОК получаем следующие результаты:
Таблица 3.7 – Прогнозные значения фондоотдачи при фиксированном значении
среднегодовой стоимости ОПФ на уровне 55%
B-Weight * Value
B-Weight
Value
(B-Веса*
(B-Веса)
(Значение)
Значение)
X2
1,531
55
84,209
Intercept
-35,110
(Св.член)
Predicted
49,099
(Предсказ.)
-95,0%CL
43,929
+95,0%CL
54,268
В первом столбце содержатся наименования расчетных и исходных
показателей. Во втором столбце приведено значение параметра a1. В третьем –
значение независимой переменной
(или переменных) используемое для
расчета прогноза. В четвертом
– значение независимой переменной
доверительным интервалом) рассчитанное в результате оценивания прогноза.
В целях сопоставления прогнозов аналогичным образом проведем
прогнозирования фондоотдачи при среднем значении среднегодовой стоимости
ОПФ.
Таблица 3.8
– Прогнозные значения фондоотдачи при фиксированном
значении среднегодовой стоимости ОПФ на уровне 47,53%
B-Weight
Value
B-Weight * Value
(B-Веса)
(Значение)
(B-Веса* Значение)
X2
1,531
47,530
72,772
Intercept
-35,110
(Св.член)
Predicted
37,662
(Предсказ.)
-95,0%CL
34,298
+95,0%CL
41,025
Рассмотрим полученные в таблице 3.8 и 3.9 результаты. В нашем случае
56

прогноз фондоотдачи при значении X2=55% находится в интервале
43,929<49,099<54,268 руб./чел, а при среднем значении независимой
переменной
34,298<37,662<41,025 руб./чел. т.е. наибольшее значение
зависимой переменной будет получено при максимальном значении X2.
3.7 Тесты для самоконтроля
1 Значение параметра аj полученное больше нуля указывает на:
прямую связь между показателями y и x;
на отсутствие связи между показателями y и x;
на обратную связь между показателями y и x.
~
2 Параметр а1 уравнения
y
aa x
показывает:
i
0
1
i
на сколько процентов изменится в среднем результат y, если фактор x
изменится на 1 %;
на сколько в среднем изменится результат y, если фактор x изменится
на натуральную единицу;
на сколько среднеквадратических отклонений изменится результат y,
если фактор x изменится на 1 среднеквадратическое отклонение.
3 Коэффициент эластичности показывает:
на сколько процентов изменится в среднем результат y, если фактор x
изменится на 1 %;
на сколько в среднем изменится результат y, если фактор x изменится
на натуральную единицу;
на сколько среднеквадратических отклонений изменится результат y,
если фактор x изменится на 1 среднеквадратическое отклонение.
4 Предположим оцениваем уравнение регрессии с двумя независимыми
переменными X1 и X2, при этом -коэффициент при первом регрессоре получен
равным 0,124, а при втором -0,673. Какой из регрессоров оказывает наибольшее
влияние на результатирующую переменную:
фактор X1;
фактор X2;
оба фактора;
ни один из факторов.
5
Получена следующая множественная регрессионная модель в
стандартизированном виде:
~
y
-0,371X1+0,780X2
i
какой из факторов оказывает наибольшее влияние на результатирующую
переменную:
фактор X1;
фактор X2;
не возможно сравнивать влияние этих факторов;
ни один из факторов.
6
Получена следующая множественная регрессионная модель в
57

стандартизированном виде:
~
y
-0,971X1+0,780X2
i
какой из факторов оказывает наибольшее влияние на результатирующую
переменную:
фактор X1;
фактор X2;
не возможно сравнивать влияние этих факторов;
ни один из факторов.
7 Значение параметра а1 получено равным 12,4 среднеквадратическая ошибка
равна 2,34, будет ли статистически значим данный параметр если табличное
значении t-критерия Стьюдента для данной выборки равно 2,20.
параметр будет не значим
параметр будет значим
не представляется возможным вычислить
8 Фактическое значение t-критерия Стьюдента равное 2,34 при условии, что
табличное значение равно 2,21 свидетельствует о:
статистической значимости соответствующего параметра аj
статистической не значимости соответствующего параметра аj
статистической значимости уравнения регрессии в целом
9 Проверка значимости уравнения регрессии проводится с помощью:
t-критерия Стьюдента
F-критерия Фишера
коэффициента Фихнера
10 Нулевой гипотезой при проверке значимости регрессионного уравнения
является:
объясненная дисперсия < остаточной дисперсии
объясненная дисперсия = остаточной дисперсии
объясненная дисперсия > остаточной дисперсии
3.8 Задания для самостоятельного выполнения
Задания для самостоятельной работы составлены в пяти вариантах,
номер варианта выбирается в соответствии с последней цифрой зачетной
книжки студента:
Таблица
3.9
– Задания
для самостоятельной работы по теме
«Построение классической линейной регрессии»
Последняя цифра номера
1 и 6
2 и 7
3 и 8
4 и 9
5 и 0
зачетной книжки
Вариант №
1
2
3
4
5
58

Используя данные (Y, X1, X2, X3 и X4) соответствующего варианта
(приложение 7) необходимо выполнить следующие этапы самостоятельной
работы:
1 Ввести данные в пакет STATISTICA и сохраните их на диске (или
ином носителе);
2 Рассчитать описательные статистики и сделайте предположение о
нормальности распределения показателей;
3 Рассчитайте матрицу парных коэффициентов корреляции и сделайте
предположение о факторах оказывающих наибольшее влияние на
зависимую переменную;
4 Оценить множественную линейную регрессию и проверьте ее на
статистическую значимость с помощью t-критерия Стьюдента и F
критерия Фишера;
5 Провести экстраполирование неизвестных значений зависимой
переменной при разных значениях независимых переменных
(максимальное, минимальное и среднее).
59

4 Выявление и устранение мультиколлениарности и
гетероскедостичности
4.1 Цели и задачи лабораторной работы
В данной лабораторной работе рассмотрим основные алгоритмы
выявления и устранения нарушений условий Гаусса-Маркова, при этом будут
решаться следующие задачи:
1 Построение регрессионной модели на основе выборочной
совокупности;
2 Тестирование наличия мультиколлениарности и построение
статистически значимой модели;
3 Тестирование наличия гетероскедостичности и построение
статистически значимой модели.
4.2 Понятие мультиколлениарности и гетероскедостичности,
методы выявления и устранения
Для того чтобы регрессионный анализ, основанный на обычном методе
наименьших квадратов, давал наилучшие из всех возможных результаты,
случайный член должен удовлетворять четырем условиям, известным как
условия Гаусса-Маркова.
1 Математическое ожидание случайного члена в любом наблюдении
должно быть равно нулю.
2 Дисперсия случайного члена должна быть постоянна для всех
наблюдений.
3 Отсутствие систематической связи между значениями случайного
члена в любых двух наблюдениях.
4 Случайный член должен быть распределен независимо от
объясняющих переменных.
5 Зависимая переменная yi (или εi) есть нормально распределенная
величина.
4.2.1 Мультиколлениарность, выявление и устранение
Мультиколлениарность
– это понятие, которое используется для
описания проблемы, когда нестрогая линейная зависимость между
объясняющими переменными приводит к получению ненадежных оценок
регрессии.
Выделим
некоторые
наиболее
характерные
признаки
мультиколлинеарности.
1 В первую очередь анализируют матрицу R парных коэффициентов
корреляции, точнее, ту ее часть, которая относится к объясняющим
60

переменным. Считается, что наличие значений коэффициентов
корреляции, по абсолютной величине превосходящих
0,75-0,80,
свидетельствует о присутствии мультиколлинеарности.
2 Анализ корреляционной матрицы R позволяет лишь в первом при-
ближении судить о наличии или отсутствии мультиколлинеарности
в исходных данных. Более внимательное изучение этого вопроса
достигается с помощью расчета значений коэффициентов
детерминации R2 каждой из объясняющих переменных хi по всем
остальным предикторам X = (х1 ,…, хn)
3 Небольшое изменение исходных данных
(например, добавление
новых наблюдений) приводит к существенному изменению оценок
коэффициентов модели.
4 Оценки имеют большие стандартные ошибки, малую значимость, в
то время как модель в целом является значимой (высокое значение
коэффициента детерминации R2 и соответствующей F-статистики
Фишера).
5 Оценки коэффициентов имеют неправильные с точки зрения теории
знаки или неоправданно большие значения.
Существует несколько способов борьбы с мультиколлениарностью:
Методы, направленные на снижение
мультиколлениарности
Получение дополнительных
Линейное преобразование
данных или новой выборки
переменных
Исключение переменных
Использование предварительной
информации о некоторых
Исключение тренда (в случае
параметрах
временных рядов)
Метод главных компонент
Пошаговая регрессия
Рисунок 4.1 – Методы снижения проблемы мультиколлениарности
4.2.2 Гетероскедостичность, выявление и устранение
Одной из ключевых предпосылок МНК является условие постоянства
дисперсий случайных отклонений
(дисперсия случайных отклонений εi
постоянная D(εi)=D(εj)=ı2 для любых наблюдений i и j). Выполнение данной
предпосылки называется гомоскедостичностью. Не выполнимость данной
предпосылки называется гетероскедостичностью.
При наличии гетероскедостичности все выводы, полученные на основе
соответствующих t– и F-статистик, а также интервальные оценки будут
ненадежными. Следовательно, статистические выводы, полученные при
61

стандартных проверках качествах оценок, могут быть ошибочными и
приводить к неверным заключениям по построенной модели.
В ряде случаев, значения характер данных, появление проблемы
гетероскедостичности можно предвидеть и попытаться устранить этот
недостаток еще на этапе спецификации.
В качестве наиболее популярных из имеющихся алгоритмов выявления
гетероскедостичности можно назвать следующие:
1 графический анализ отклонений
2 тест ранговой корреляции Спирмена
3 тест Парка
4 тест Глейзера
5 тест Голдфреда-Квандта
Для борьбы с гетероскедостичностью используют обобщенный,
доступный обобщенный или взвешенный метод наименьших квадратов.
4.3 Рекомендуемая литература
Для лучшего понимания материала изложенного в данной главе
необходимо дополнительно проанализировать следующие источники
литературы:
1 Бородич, С.А. Эконометрика: учеб. пособие / С.А. Бородич. – 3 -е изд., стер.
– Мн.: Новое знание, 2006. – 408 с. ISBN 985-475-206-2 (см. стр. 230-250,
271-285)
2 Доугерти К. Введение в эконометрику: Пер. с англ. – М.: ИНФРА-М. 2001. –
402с. (см. стр. 155-159, 200-217)
3 Кремер Н, Путко Б. Эконометрика: Учебник для вузов. – М.: ЮНИТИ-
ДАНА. 2003. – 311с. (см. стр. 108-111, 155-157)
4 Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е
изд., испр. – Т. 2: Айвазян С.А. Основы эконометрики.
– М.: ЮНИТИ-
ДАНА, 2001. -432с. (см. стр. 74-89, 102-111)
4.4 Мультиколлениарность, выявление и устранение
Используя данные, приведенные в приложении 8, рассмотрим методы
выявления и устранения мультиколлениарности
4.4.1 Методы выявления мультиколлениарности
На практике, для идентификации мультиколлениарности, наиболее
часто прибегают к анализу матрицы парных коэффициентов корреляции. В
пакете STATISTICA данную процедуру можно реализовать двумя способами:
Первый способ:
Шаг 1. Выберем в главном меню Statistics
Basic Statistics/Tables
(Статистика Основные статистики и таблицы).
62

Шаг 2. В окне Basic Statistics and Tables выбреем пункт Correlation
matrices (Корреляционная матрица) и нажмем кнопку ОК.
Шаг 3. В окне Moment and Partial Correlations выберем кнопку One
variables list и выделим переменные для анализа Y, X1-X5, далее нажмем
Summary (Итоги).
Таблица 4.1 – Матрица коэффициентов корреляции (первый способ)
Y
X1
X2
X3
X4
X5
Y
1,000
-0,194
0,737
-0,070
0,792
-0,165
X1
-0,194
1,000
-0,123
0,666
-0,154
0,566
X2
0,737
-0,123
1,000
-0,189
0,678
-0,264
X3
-0,070
0,666
-0,189
1,000
-0,152
0,313
X4
0,792
-0,154
0,678
-0,152
1,000
-0,160
X5
-0,165
0,566
-0,264
0,313
-0,160
1,000
Второй способ:
Шаг 1. В главном меню выберем Statistics Multiple Regression в окне
Multiple Linear Regressions нажмем кнопку Variables (Зависимая переменная –
Y, не зависимые – X1, X2, X3, X4, X5)
Шаг 2. Установим флажок напротив опции Review descriptive statistics,
correlation matrix и нажмем кнопку ОК.
Шаг 3. В окне Review descriptive statistics
(во вкладке Advanced)
выберем кнопку Correlations (Корреляция).
Согласно данным, приведенным в таблице 4.2 (таблица 4.1), между
переменными X2 и X4, а также X1 и X3, X5 наблюдается сильная взаимосвязь
(0,678,
0,666 и
0,566 соответственно), что свидетельствует о наличии
мультиколлениарности. В связи с этим при оценке модели с переменными X2 и
X4 (оказывают сильное воздействие на Y) невозможно разделить влияние
данных переменных на зависимую переменную, т.е. мы не можем
одновременно включить переменную в модель.
Таблица 4.2 – Матрица коэффициентов корреляции (второй способ)
X1
X2
X3
X4
X5
Y
X1
1,000
-0,123
0,666
-0,154
0,566
-0,194
X2
-0,123
1,000
-0,189
0,678
-0,264
0,737
X3
0,666
-0,189
1,000
-0,152
0,313
-0,070
X4
-0,154
0,678
-0,152
1,000
-0,160
0,792
X5
0,566
-0,264
0,313
-0,160
1,000
-0,165
Y
-0,194
0,737
-0,070
0,792
-0,165
1,000
Еще одни распространенным способом выявления наличия
мультиколлениарности является расчет показателей детерминации, для этого
63

(относительно рассматриваемого примера) последовательно необходимо
оценить пять уравнений регрессии.
В этом случае зависимая переменная Y исключается из рассмотрения, и
уравнение принимает вид:
Воспользуемся модулем Multiple Regression получим следующие
результаты:
Таблица
4.3
– Показатели адекватности множественного уравнения
регрессии влияния независимых переменных на фактор X1
Value
(Значение)
Multiple R (Множест. R)
0,776
Multiple R? ((Множест. R2)
0,602
Adjusted R? (Скорр. R2)
0,549
F(4,30)
11,329
p
0,000
Std.Err. of Estimate (Стд. Ош. Оценки)
1984,209
Согласно данным, приведенным в таблице
4.3, получаем значение
коэффициента детерминации R2 X1 X2, X3, X4, X5 равное 0,602.
Оценивая оставшиеся четыре регрессионных уравнения, получаем
следующие результаты:
R2 X1 X2, X3, X4, X5 =
0,602 (F(4,30)= 11,329 при p=0,000)
R2 X2 X1, X3, X4, X5 = 0,506 (F(4,30)= 7,676 при p=0,000)
R2 X3 X1, X2, X4, X5 = 0,469 (F(4,30)= 6,619 при p=0,001)
R2 X4 X1, X2, X3, X5
= 0,472 (F(4,30)= 6,694 при p=0,001)
R2 X5 X1, X2, X3, X4 =
0,380 (F(4,30)= 4,589 при p=0,005)
Анализируя коэффициенты можно сделать вывод, что значимая связь
наблюдается между всеми показателями
(кроме X5) и остальными
независимыми показателями, т.е. в очередной раз подтверждается наличие в
имеющихся данных мультиколлениарности.
4.4.2 Устранение мультиколлениарности
Воспользуемся модулем Multiple Regression и проиллюстрируем ход
выполнения метода пошагового исключения переменных в пакете
STATISTICA, для этого необходимо:
Шаг 1. В главном меню выбрать Statistics Multiple Regression.
64

Leave a Reply

Your email address will not be published. Required fields are marked *

Приєднуйся до нас!
Підписатись на новини:
Наші соц мережі