17 Червня, 2024
0
0
Зміст
Основи робот з пакетом STATISTICA. Створення та
редагування таблиць. Введення даних, кодування введення.
Імпорт та експорт даних. Категоризація даних. Створення
звітів.
Опис даних. Визначення типу та шкали вимірювання даних.
Використання графіків для візуалізації інформації. Основні
описові статистики в пакетах STATISTICA та OpenOffice.org Calc.
Визначення помилок, викидів та їх видалення. Перевірка гіпотез
щодо законів розподілу.
матеріали використано з доробку
Кафедра теорії ймовірностей, статистики
та актуарної математики, Київського
національного університету
імені Тараса Шевченка

Заняття 1
Дані в пакеті STATISTICA
Розпочнемо роботу з запуску пакету STATISTICA. Виконаємо Start Æ
Programs Æ Statistica Æ Statistica 7 (послідовність команд може бути
трохи іншою, якщо при установці пакету були вибрані інші опції). Після
завантаження програми перед нами з’явиться вікно з контекстною панеллю
для роботи з даними, а також відкриється таблиця нового або одного із
стандартних, вже існуючих файлів.
Головне правило користувача: нічого не змінювати у файлах-прикладах
пакету, або файлах інших користувачів.
Тому, натиснувши на Х у правому верхньому куті відкритої таблиці
даних, закриємо її.
Виберемо на верхній панелі Statistics. У меню, що з’явилося
(див.
рис. 1.1), нам пропонують обрати один з модулів для подальшої роботи.
Модуль – це набір статистичних засобів для роботи з певною специфічною
інформацією. Отже, кожен з модулів полегшує нам вирішення певних
статистичних задач.
Рис. 1.1

Дамо короткий опис модулів, які розглядатимемо в курсі:
Basic Statistics
Описова статистика (способи зображення
(візуалізації) даних, оцінка параметрів, деякі
параметричні тести)
Nonparametrics
Непараметричні тести
Distribution fitting
Можливість візуально підбирати криву розподілу
до існуючої гістограми
Multiple Regression
Багатофакторна (множинна) регресія.
(використовують, коли один показник залежить
від багатьох інших)
Advanced Linear/
Нестандартні типи регресій
Nonlinear Models Æ
Nonlinear estimation
Advanced Linear/
Аналіз часових рядів: визначення законів
Nonlinear Models Æ
циклічності, періодичності, тренду, дослідження
Time Series
стохастичної компоненти.
Multivariate Exploratory
Дискримінантний аналіз: знаходження
Techniques Æ
визначальних показників для класифікації
Discriminant Analysis
об’єктів у задані групи
Multivariate Exploratory
Кластерний аналіз: поділ даних на групи за
Techniques Æ Cluster
певними ознаками (наприклад, поділ країн на
Analysis
групи за показником ВВП)
Multivariate Exploratory
Факторний аналіз: проблеми класифікації і
Techniques Æ Factor
вибору показників, які є головними для опису
Analysis
даного явища
Виберемо File Æ New. У діалоговому вікні, що відкрилося (див. рис.
1.2), можемо вибрати кількість змінних і випадків, а також розміщення
таблиці даних, яку ми створюємо.

Рис. 1.2
Стандартна таблиця даних має розмір 10х10, де стовпці відповідають
змінним (VAR1, VAR2,…,VAR10), а рядки
– випадкам зі значеннями, які
змінні набувають.
Опція In a new Workbook розмістить новостворену таблицю у робочій
книзі, в яку також будуть записуватися всі графіки, діаграми і таблиці,
отримані у процесі роботи з даними. Опція As a standalone window створить
таблицю в окремому вікні так, що дані можна буде зберегти окремо
виконавши File Æ Save при активізованій таблиці. Слід зазначити, що
STATISTICA 7 оперує з „робочими книгами” – спеціальними файлами, в
яких зберігається, залежно від обраних користувачами опцій, та чи інша
інформація і результати роботи.
Коли Ви починаєте виконувати певні дії в пакеті, автоматично буде
створено файл звіту. На закладці Report можна вибрати розміщення даних
звіту (опції аналогічні згаданим раніше).
Натискаємо OK внизу вікна Create new document. З’явиться нова
порожня таблиця.

Якщо ми хочемо змінити кількість змінних, то натиснемо на верхній
панелі кнопку VARS Æ Add. У вікні, що з’явилося (див. рис. 1.3), вказуємо
скільки змінних ми хочемо додати і після якої змінної вставити нові змінні.
Також можна обрати ім’я змінної за замовчуванням, тип даних і довге ім’я.
Рис. 1.3
Перемістити змінні можна таким чином: натиснути на верхній панелі
кнопку VARS Æ Move (або виділити змінну і натиснути праву кнопку миші
для отримання контекстного меню в якому вибираємо Move Variables).
Вказуємо, з якої по яку змінну ми хочемо перемістити, і після якої змінної
їх вставити (див. рис. 1.4).
Аналогічно, операції VARS Æ Copy, VARS Æ Delete (або Copy Variables і
Delete Variables в контекстному меню) дають змогу скопіювати певні
змінні, вставивши їх після вказаної нами змінної, та видалити вказані
користавачем змінні.
Аналогічно всі згадані операції виконуються з випадками за допомогою
меню Cases верхньої панелі.

Рис. 1.4
Виділимо якусь змінну, натиснувши на її ім’я лівою кнопкою миші
(LC), далі натиснемо праву кнопку миші (RC) та виберемо Variable Specs.
На екрані з’явиться вікно опису даної змінної (див. рис. 1.5).
Рис. 1.5
Дамо короткий опис полів для заповнення:

A
Опції для вибору різних характеристик шрифтів
Name
Ім’я змінної
Type
Вибрати тип даних – число подвійної точності,
байти, ціле число, текст
Length
Ширина колонки даної змінної (для тексту)
Excluded
Виключити змінну з подальшого аналізу
Label
Використовувати значення змінної як тексові мітки,
наприклад для точок на графіку
MD Code
(missing data code) – значення, яке за замовчування
присвоюється змінній, якщо її справжнє значення
відсутнє з якихось причин. (Наприклад, у нас немає
спостережень даного показника у роки війни)
Display format
Вибір формату відображення числа (як дата, тощо)
– дуже багато різних опцій – досліджуйте!
Long name
Поле, в якому можна задавати формулу для
обчислення значення даної змінної.
Кнопки мають такі функції:
<< , >> для переходу до попередньої і наступної змінної, яку
відображає даний діалог;
All specs відкриває таблицю з усіма специфікаціями змінних;
Values/Stats дає змогу дізнатися
„швидку статистику”
– значення
окремих випадків, середнє арифметичне, стандартне відхилення та інше
(див. рис. 1.6).
Кнопка Functions відкриває вікно вибору функцій для формули, яка
визначатиме значення змінної.
Проілюструємо це на прикладі. Для цього заповнимо колонки перших
двох змінних довільними значеннями. Далі виділимо третю змінну,
натиснемо RC Æ Variable Specs. У полі Long Name напишемо: =v1+v2. Далі
двічі натиснемо OK. Бачимо, що тепер змінна VAR3 є сумою VAR1 та VAR2.
Зауваження: імена v1, v2,… за замовчуванням присвоюються по порядку
першій, другій, і т.д. змінним. Якщо ім’я першої змінної буде VAR10, то v1
буде відповідати саме змінній VAR10.

Якщо змінюються значення незалежних змінних, то перерахувати
залежну змінну можна натиснувши на верхній панелі кнопку VARS Æ
Recalculate або кнопку x=?.
Рис. 1.6
Інколи бувають потрібні не точні значення змінних, а їх порівняння з
іншими значеннями цієї ж змінної, тобто треба замінити значення змінної
на їх відносне місце у варіаційному ряді за зростанням чи спаданням. Для
цього натискаємо VARS Æ Rank. У вікні, що з’явиться (див. рис. 1.7),
вибираємо: найбільшому чи найменшому значенню присвоїти ранг 1 (тобто
за спаданням чи за зростанням будуть впорядковані значення), а також
обираємо опцію Mean
(якщо хочемо, щоб однакові значення мали
однаковий усереднений ранг) або Sequential (якщо хочемо, що однакові
значення мали послідовні значення рангу).
Інколи буває потрібно розбити значення змінних на групи (наприклад,
якщо певний показник більший за певну величину або менший за цю
величину). Виділяємо, наприклад, першу змінну, далі натискаємо VARS Æ
Recode. У першому полі Include If пишемо умову для потрапляння значення
змінної у групу: v1<5. У другому полі Include If пишемо: v1>=5. У полях

New Value 1 та New Value 2 вибираємо 1 та 2 відповідно (див. рис. 1.8).
Натискаємо ОК і зберігаємо змінені значення. Бачимо, що всі значення, що
були менші за 5, отримали нове значення 1, а ті, що були не менші за 5
отримали значення 2.
Рис. 1.7
Рис. 1.8

Оскільки візуально краще працювати з текстом, який би вказував назви
груп, на які ми щойно розбили значення змінної, то виконаємо Data Æ Text
Labels Editor і для значень 1 та 2 введемо назви груп, наприклад male та
female і натиснемо Enter. Натискаючи кнопку Show/Hide Text Labels на
верхній панелі бачимо, що у всіх клітинках замість числових значень
з’явились назви груп.
Для заповнення значень змінної можемо використовувати послідовність
команд RC Æ Fill/Standartize Block Æ Fill Random Values. У результаті
змінна буде заповнена випадковими значеннями.
Якщо хочемо заповнити весь стовпчик або весь рядок одним й тим
самим значенням, то набираємо це значення в першій клітинці. Далі
починаючи з цієї ж клітинки виділяємо вниз або вправо стовпчик чи рядок
відповідно і натискаємо RC Æ Fill/Standartize Block Æ Fill/Copy Down або
RC Æ Fill/Standartize Block Æ Fill/Copy Right відповідно.
Якщо ми хочемо заповнити стовпчик арифметичною прогресією, то в
перших двох клітинках вводимо два перші члени арифметичної прогресії,
виділяємо ці клітинки, переміщуємо курсор у правий нижній кут виділеної
області, доки він не змінить форму хрестика і тягнемо вниз з натиснутою
лівою кнопкою миші до тієї клітинки, до якої потрібно заповнити стовпчик.
Для зміщення всіх даних у змінній, як одне ціле, на кілька позицій
використовуємо на верхній панелі кнопку VARS Æ Shift (Lag).
Для стандартизації змінних використовуємо на верхній панелі кнопку
VARS Æ Standardize.
Створені нами дані ми можемо зберігати в різних форматах. Для цього
при виділеному окремому вікні з даними натиснемо File Æ Save as. Далі
маємо можливість вибрати формат, в якому хочемо зберегти інформацію.
Якщо дані містяться в робочій книзі, клацаємо правою клавішею миші на
назві таблиці в дереві документів (зліва) і вибираємо Save item as. Потрібну
таблицю, графік можна виокремити з робочої книги за допомогою
команди Extract as a standalone, якщо відмітити їх у робочій книзі і
натиснути праву клавішу миші (див. рис. 1.9).
Якщо у нас є дані в Excel і ми хочемо частину з цих даних скопіювати у
файл в Statistica, то існує два способи це зробити:
1. за допомогою звичайних операцій Copy в Excel і Paste в Statistica,
2. або знову ж таки Copy в Excel та Edit Æ Paste special Æ Paste Link
в Statistica.
Другий спосіб має ту перевагу над першим, що при зміні даних в
таблиці Excel, дані в файлі Statistica теж будуть відповідно змінюватися, а
при першому способі цього не відбудеться. Якщо після внесення даних в
файл з допомогою Paste Link подивитися на Edit Æ Link, то побачимо там

запис про те з яким файлом встановлено динамічний зв’язок – в нашому
випадку на файл Excel.
Рис. 1.9
Для створення звіту – тобто файлу, в якому будуть записані результати
всіх дій, що ми проводимо, як-от: таблиці, графіки тощо, – натискаємо File
Æ Output Manager (див. рис. 1.10). Вибираємо опцію, щоб інформація
автоматично відсилалась до файлу звіту, потім визначаємо, чи
створюватиметься окремий звіт для кожного графіку/аналізу, чи в одному
вікні зливатиметься вся звітність, чи створиться файл звіту із вказаним
іменем.
Аналогічно у верхній частині вікна можна вибрати опції щодо
використання робочих книг.

Рис. 1.10
Розглянемо з якими файлами ми матимемо справу, працюючи у пакеті
Statistica. Про інформацію, що міститься у файлах, свідчить розширення
файлу:
.sta
Файли з даними у вигляді таблиць
.stw
Файли робочих книг
.stg
Файли з графіками
.str
Файли звіту
.svb, .svx
Файли STATISTICA Visual Basic чи макроси
.stm
Файли матриць
.snn
Файли нейронних мереж

.sdm
Файли проектів модулю Data Miner
.sti
Файли на віддалених серверах
Для роботи з усіма змінними таблиці даних або кількома файлами
даних використовуємо меню Data. Наприклад, щоб транспонувати таблицю
даних виконуємо Data Æ Transpose Æ File.
Часом виникає потреба об’єднати дані з двох файлів в один. Наприклад,
потрібно додати спостереження з показниками підприємств за нові роки,
або додати нові показники діяльності підприємств до тих, що вже
спостерігають протягом певного часу.
Для цього виконуємо Data Æ Merge. У вікні, що з’явиться (див. рис.
1.11), вказуємо імена файлів з якими будуть здійснюватися операції і
вибираємо опції об’єднання на закладках Variables чи Cases.
Рис. 1.11
Розглянемо як створювати макроси, які дають змогу автоматизувати
виконання деякої послідовності команд. Натиснемо Tools Æ Macro Æ Start
Recording Log of Analyses (Master Macro) (див. рис. 1.12).
6

Рис. 1.12
Індикатором того, що запис команд почався і триває, слугує віконце з
кнопками управління записом. Наприклад, виберемо на верхній панелі
Graphs Æ Histograms потім натиснемо Variables Æ Select all Æ Ok ще раз
натиснемо Ok. Отримаємо гістограми усіх змінних. Після цього перейдемо
в верхнє меню Statistics Æ Basic statistics/Tables Æ Descriptive statistics Æ
OK. Знову оберемо змінну: Variables Æ Select all Æ Ok. Натиснемо кнопку
Summary. З’явиться таблиця з описовою статистикою всіх змінних. Для
закінчення запису макросу натиснемо кнопку зупинки макросу. У вікні, яке
з’явиться (див. рис. 1.13), натискаємо Ok. Бачимо текст STATISTICA Visual
Basic програми, яка з послідовністю виконаних операцій (див. рис. 1.14).
Рис. 1.13

Рис. 1.14
Натискаємо File Æ Save as Global Macro і зберігаємо макрос в головну
директорію, в якій встановлено пакет Statistica.
Щоб виконати макрос вибираємо на верхній панелі Tools Æ Macro Æ
Macros. Відмічаємо потрібний макрос у вікні, що з’явилось, і натискаємо
Run (див. рис. 1.15).
Потім оберемо Tools Æ Customize. Відмітимо на закладці Toolbars
категорію Macro
з’явиться нова панель інструментів. На закладці
Command/Macros виберемо категорію Macros (див. рис.
1.16), і потім
перетягнемо створений раніше макрос в панель інструментів. Тепер після
натискання кнопки з назвою макросу будуть автоматично побудовані
гістограми і проведена описова статистика змінних.
Аналогічно можна записувати макрос, що відтворює послідовність дій з
клавіатури (Tools Æ Macro Æ Start Recording Keyboard Macros). У цьому
випадку команди, що будуть записані в макрос, повинні бути введені
тільки за допомогою клавіатури.

Рис. 1.15
Рис. 1.16

Заняття 2
Описова статистика
Якщо потрібно знайти значення теоретичної функції розподілу в певній
точці, або, вказавши значення функції розподілу, знайти квантиль, то для
цього можна скористатися імовірнісним калькулятором: Statistics Æ
Probability Calculator Æ Distribution (див. рис. 2.1).
Рис. 2.1
Панель Probability Distribution Calculator
(див.рис.
2.2) дає змогу
подивитися, як виглядає один із даних нам розподілів. Змінюючи значення
параметрів розподілу, будемо бачити автоматичну зміну щільності розподілу
(Density Function) та функції розподілу
(Distribution Function). Задавши
значення в полі X після натискання Compute в полі р з’явиться значення
функції розподілу F(x). Аналогічно в полі р можна задати ймовірність від 0
до 1, тоді після натискання Compute в полі X з’явиться значення квантилі
рівня p. Якщо відмітити Create Graph та Send to Report і натиснути

Compute, то в окремих вікнах отримаємо, відповідно, графік та звіт (див.
рис. 2.2).
Рис. 2.2
Розглянемо модуль Basic Statistics/Tables. Натиснемо Statistics Æ Basic
Statistics/Tables
(див. рис.
2.3) і зайдемо в розділ Descriptive Statistics.
Відкриємо файл Adstudy.sta (…\STATISTICA 7\Examples\ Datasets\), у якому
зібрані дані про оцінки чоловіками та жінками реклами напоїв Pepsi та Coke.
Кожен опитуваний оцінював рекламу по різних показниках, виставляючи

оцінку від 0 до 9 (див. рис. 2.4).
Рис. 2.3

Рис. 2.4
Активізуємо вікно Descriptive Statistics з нижньої панелі. В полі Variables
вкажемо 3-Measure01.
В закладці Quick знаходяться найбільш вживані описові статистики, таблиця
частот, гістограма, а також „коробка з вусами” (див. рис. 2.5). Для того щоб
побачити описові статистики натиснемо Summary. В інших закладках ми
можемо налаштувати і подивитись детальніші характеристики.
Рис. 2.5
Так, якщо вибрати закладку Advanced, а потім натиснути Select all stats та
Summary то отримаємо інші характеристики даних (див. рис. 2.6). Зокрема,
значення Skewness показує коефіцієнт асиметрії, тобто наскільки розподіл
“скособочений”. А значення Kurtosis показує наскільки розподіл
“пікоподібний”. Для стандартного нормального розподілу Skewness та
Kurtosis дорівнюють нулеві.
Повернемось до закладки Quick. Натиснувши кнопку Frequency Tables
отримаємо таблицю частот для нашої вибірки. Натиснувши кнопку
Histograms отримаємо гістограму, на якій червоною лінією зображено
підігнану криву нормального розподілу (див. рис. 2.7).
В закладці Options ми можемо обрати тип “коробки з вусами”. Оберемо
перший тип Median/Quart/Range. Повернемось у закладку Quick і натиснемо
Box & whisker plot for all variables – з’явиться вікно з рисунком коробки з
вусами, в якій маленький прямокутник відповідає значенню медіани, великий

прямокутник – нижній та верхній квартилі, а вуса – найменшому та
найбільшому значенню вибірки (див. рис. 2.8).
Рис. 2.6

Рис. 2.7
5

Рис. 2.8
В закладці Categorized Plots натиснемо Categorized box & whisker plots
(див. рис. 2.9). Далі оберемо 1-GENDER, як першу змінну, 2-ADVERT, як
другу. Третю змінну вказувати не будемо і натиснемо ОК. З’явиться
вікно Select Codes for the grouping variables. Для Gender, і для Advert
виберемо ALL (див. рис. 2.10). Натиснемо ОК. У вікні, що з’явиться (див.
рис. 2.11), отримуємо коробки з вусами окремо для Pepsi і Coke, і окремо
для чоловіків і жінок. Бачимо, що реклама Pepsi подобається чоловікам
більше, ніж жінкам, а реклама Coke навпаки. При цьому у жінок розкид
уподобань більший. Зауважимо, що отримані дані стосуються першої вибірки.
Для того, щоб візуально побачити, наскільки наша вибірка відповідає
нормальному закону розподілу у вікні Descriptive Statistics в
закладці Prob. & Scatterplots натиснемо Normal Probability Plots (див.
рис. 2.12).

Рис. 2.9
Рис. 2.10
Рис. 2.11

Рис. 2.12
Чим ближче точки розміщені до прямої, на графіку який з’явився, тим краще
гаусів закон описує розподіл наших даних ( див. рис. 2.13).
Якщо ми хочемо вибирати той тип розподілу з яким візуально
найкраще узгоджується наша вибірка, то виконуємо Graphs Æ
2D
Graphs Æ Quantile-Quantile Plots (див. рис. 2.14). Перейдемо на закладку
Advanced. За допомогою кнопки Variables задаємо потрібну змінну. У полі
Distribution вибираємо розподіл, на відповідність якому хочемо перевірити
нашу вибірку (див. рис. 2.15) і натискаємо ОК. У результаті отримуємо Q-
Q графік, точки якого тим ближче розміщені до прямої, чим краще заданий
тип розподілу описує наші даних.
Наприклад, з рисунка 2.16 видно, що експоненційний розподіл візуально
не підходить до наших даних.
28

Рис. 2.13
Рис. 2.14
29

Рис. 2.15
Рис. 2.16
30

Заняття 3
Описова статистика
(графічна візуалізація)
Відкриємо файл adstudy.sta
(…\STATISTICA
7\Examples\ Datasets\).
Натиснемо Statistics Æ Basic Statistics/Tables, зайдемо в розділ Descriptive
Statistics і в закладці Prob. & Scatterplots натиснемо Half-Normal
Probability Plot. Або ж відкриємо Graphs Æ 2D Graphs Æ Normal Probability
Plots і натиснемо у вікні, що з’явиться, Quick Æ Graph Type: Half-Normal
(див. рис. 3.1).
Рис. 3.1
Вибираємо як змінну для аналізу 4-MEASURE02 і натискаємо OK.
Отримуємо графік (див. рис. 3.2), на якому побачимо, наскільки дані
вибірки узгоджуються з напівнормальним розподілом, щільність якого
визначається, як
30

2p
(x),
x
0
N
p(xx
)
,
min
=⎨
0
,
x
<
0
де
p
(x)
– щільність нормального розподілу N(0,1), а
x
– найменше
N
min
спостереження у вибірці.
Якщо наша вибірка має тренд, то вибравши Detrended Normal
Probability Plot (відповідно Graph Type: Detrended), отримаємо графік, на
якому можна побачити, як розподілені залишки, якщо виділено тренд (див.
рис. 3.3).
Рис. 3.2
Припустимо, ми хочемо отримати гістограму вибірки, категоризовану за
певним значенням. Наприклад, для даних з файлу adstudy.sta потрібно
отримати гістограму окремо для чоловіків і окремо для жінок. Вибираємо
Statistics Æ Basic Statistics/Tables Æ Descriptive Statistics і натискаємо у
закладці Categ.plots кнопку Categorized Histograms (див. рис. 3.4). У вікні
Select one or two grouping (categorization) variables вибираємо Gender як
first variable, як second variable не вибираємо нічого. Натискаємо ОК. У
вікні Select code for grouping variables натискаємо All, ОК. Отримуємо в
одному вікні 2 гістограми (див. рис. 3.5).
31

Рис. 3.3
32

Рис. 3.4
Переходимо на закладку Prob. & Scatterplots. Як змінні Variables
виберемо MEASURE01 та MEASURE02. Натиснемо кнопку 2D Scatterplot. У
вікні Select two var. lists
(horizontal and vertical vars in plots) як First
(horizontal) variable list вибираємо
3-MEASURE01, як Second (vertical)
variable list вибираємо 4-MEASURE02. Натиснемо ОК. Отримаємо графік
(див. рис. 3.6), на якому зображено синіми кружечками сумісні значення
вибірок MEASURE01 та MEASURE02, а червоною лінією – пряму лінійної
регресії для цих даних. Штриховими лініями позначено
95% довірчу
область, у якій мали б знаходитись сумісні значення вибірок для даної
регресійної моделі.
Рис. 3.5
Перейшовши до закладки Normality, натиснувши на кнопку
3D
histograms, bivariate distributions (див. рис. 3.7) і вибравши у вікні Select two
variable lists 3-MEASURE01 як First variable list і 4-MEASURE02 як Second
variable list, отримаємо діаграму, в якій висота кожного стовпчика
дорівнює кількості однакових відповідних пар з вибірок MEASURE01 та
MEASURE02 (див. рис. 3.8).
33

Рис. 3.6
Рис. 3.7
34

Рис. 3.8
Якщо ми хочемо подивитися на даний рисунок з іншої точки, то
натиснемо кнопку 3D Rotation control під головним меню. У вікні, що
з’явиться (див. рис. 3.9), ми можемо змінити розміщення нашої діаграми
так, щоб найкраще відображались ті особливості даних, що нас цікавлять.
Якщо натиснути кнопку Analytic exploratory spin options, то наша діаграма
почне обертатись. Коли вона буде перебувати у потрібному нам положенні
натиснемо Stop.
Виконаємо Graphs Æ Histograms, закладка Advanced (див. рис. 3.10).
Виберемо опцію Showing type: Cumulative – це означає, що гістограма буде
накопичувальною. Звичайна гістограма дає уявлення про графік щільності,
а накопичувальна – про графік функції розподілу. Як variables виберемо
MEASURE01. У полі Graph type виберемо Regular. З розподілів можемо
вибрати той, який ми хочемо підібрати до даної гістограми. Натиснемо ОК.
Отримаємо накопичувальну гістограму з червоною лінією графіка обраної
теоретичної функції розподілу (див. рис. 3.11).
35

Рис. 3.9
Рис. 3.10
36

Рис. 3.11
Якщо потрібно на одному графіку намалювати гістограми для двох
вибірок, то як Graph Type виберемо Multiple. Наприклад, як Variables
виберемо MEASURE01 та MEASURE02, а розподіл Normal. Отримаємо дві
накопичені гістограми на одному графіку (див. рис. 3.12).
Якщо хочемо в одному вікні виводити різні методи опису вибірок
(коробки з вусами, гістограми тощо), то вибираємо, наприклад, Graphs Æ
2D Graphs Æ Scatterplots w/Box plots (див. рис. 3.13). Оберемо дві змінні
MEASURE01 та MEASURE02. Натиснемо ОК. Отримаємо діаграму
розсіювання разом з коробкою з вусами для обох змінних (див. рис. 3.14).
Виконаємо Graphs Æ Stats 3D XYZ Æ Surface plots. У вікні, що з’явиться
(див. рис. 3.15), оберемо метод підгонки Fit: Quadratic, за допомогою якого
отримаємо квадратичну поверхню за трійками спостережень X, Y, Z. У
Variables виберемо як змінні відповідно вибірки MEASURE01,
MEASURE02, MEASURE03. Натиснувши ОК отримуємо потрібну
поверхню (див. рис. 3.16).
37

Рис. 3.12
Рис. 3.13
38

Рис. 3.14
Рис. 3.15
39

Рис. 3.16
Виконаємо Statistics Æ Basic Statistics/Tables Æ Correlation matrix.
Вибираємо One variable list та Select All, натискаємо ОК, Summary (див. рис.
3.17). З’явиться кореляційна матриця
(див. рис. 3.18), у якій червоним
кольором виділено значення кореляцій, які значимі з рівнем p=0.05.
Рис. 3.17
40

Рис. 3.18
Щоб змінити стандартний рівень значимості p=0.05, перейдемо в
закладку Options і введемо нове значення у віконці p-level for highlighting
(див. рис. 3.19).
Рис. 3.19
41

Якщо виділити клітину в кореляційній матриці, наприклад 0.30 на
перетині MEASURE15 та MEASURE3, і натиснути праву кнопку миші Right
Click Æ Graphs of Input Data Æ Scatteplot by MEASURE15 Æ Regretion,
95% conf., то побачимо графік, на якому зображені сумісні значення двох
змінних MEASURE15 і MEASURE3, відображено їх кореляцію, та рівняння і
графік відповідної лінійної регресійної прямої (див. рис. 3.20).
Рис. 3.20
Перейдемо в панель аналізу Nonparametric: Statistics Æ Nonparametrics
Æ Correlations (Spearman etc.) Æ ОК (див. рис. 3.21).
Виберемо як Variables MEASURE01 та MEASURE02 і підрахуємо для
них кореляцію Спірмена. Для цього виберемо Compute:Detailed report і
натиснемо кнопку Spearman R (див. рис. 3.22).
42

Рис. 3.21
Рис. 3.22
Побачимо, що значення кореляції Спірмена
(див. рис.
3.23)
відрізняється від підрахованої раніше кореляції Пірсона. Насправді
кореляція Спірмена – це кореляція між ранжованими значеннями змінних
MEASURE01 та MEASURE02. Тобто якби в модулі Basic Statistics ми
проранжували значення змінних MEASURE01 та MEASURE02 і підрахували
43

для них кореляцію, то побачили б, що вона збігається з кореляцію
Спірмена.
Рис. 3.23
Натиснемо Graphs Æ Icon Plots. У вікні, що з’явиться (див. рис. 3.24), у
Variables виберемо для графічного аналізу всі змінні. У полі Graph Type
можемо вибрати тип діаграми. Оберемо тип діаграми Chernoff Faces, тоді
кожна змінна буде відповідати за певний параметр обличчя
– висоту вух,
ширину обличчя тощо (див. рис. 3.25).
Рис. 3.24
44

Рис. 3.25
Якщо вибрати тип Stars, то значення всіх змінних будуть відкладені на
променях послідовно за годинниковою стрілкою (див. рис. 3.26). Якщо
обрати тип Pies, то значення кожної змінної буде відповідним кольором
зображене у секторі круга (див. рис. 3.27). Отже, за даними діаграмами
можна візуально отримати уявлення про дані.
Натиснемо Statistics Æ Basic statistics/Tabels Æ Frequency TablesÆ ОК.
У Variables оберемо змінну MEASURE01 (див. рис. 3.28). Натиснувши
Summary отримуємо таблиці частот – звичайну, відсоткову і накопичену
(див. рис. 3.29).
45

Рис. 3.26
Рис. 3.27
46

Рис. 3.28
Рис. 3.29
У закладці Advanced
(див. рис.
3.30) ми можемо більш точно
налаштувати параметри таблиці частот до наших вимог.
47

Рис. 3.30
Наведемо короткий опис опцій для вибору різних параметрів таблиць
частот у пакеті Statistica:
No. of exact intervals
Вказуємо точну кількість інтервалів
“Neat” intervals
Границі інтервалів будуть
“гарними” числами,
approximate no.
але їх кількість може трохи відрізнятись від
вказаного числа
Step size
Можемо вказувати розмір інтервалів
Integer categories
Використовують, коли значення змінної є цілими
числами
User-specified
Використовуємо, коли користувач бажає точно
вказати розміри всіх інтервалів
Для того, щоб самостійно вказати розміри всіх інтервалів, натискаємо
кнопку, що міститься внизу поряд з написом User-specified categories. У
вікні Define Categories, що з’явилося, вказуємо умови для внесення значень
в інтервал, наприклад, v3<2, v3<=5, v3<=9, v3>=5
(див. рис.
3.31).
Натискаємо ОК, Summary. Отримуємо нову таблицю частот з вказаними
48

інтервалами (див. рис. 3.32). Значення спостережень враховуються лише в
одній групі. Підрахунок у таблиці проводиться послідовно зверху вниз.
Рис. 3.31
Рис. 3.32
49

Заняття 4
Перевірка гіпотез
Для того, щоб перевірити гіпотезу про залежність двох показників
виконаємо Statistics Æ Nonparametrics Æ 2×2 Table Æ ОK (див. рис. 4.1).
Рис. 4.1
Таблицю, яка з’явилась використовують, коли є потреба в перевірці
зв’язку між двома змінними. Наприклад ми хочемо перевірити, чи
пов’язані між собою такі два показники як колір очей та колір волосся.
Можна провести опитування в групі про колір очей та волосся і занести в
таблицю ці дані (див. рис. 4.2)
Рис. 4.2
50

Нехай
p
=p
+p
, p
=p
+p
, q
=p
+p
, q
=p
+p
Якби
1
11
12
2
21
22
1
11
21
2
12
22
в таблиці 4.1 були ймовірності, то у разі коли колір очей та колір волосся
незалежні виконувалось би співвідношення
p
=p
q
, i,j=1,2.
ij
i
j
Очі
Волосся
Темні
Світлi
p
p
p
Темне
11
12
1
p
p
p
Світле
21
22
2
q
q
1
2
Таб. 4.1
За допомогою критерію χ2 (Chi-square) можна визначити ймовірність
помилки, якщо ми, на основі наших даних, відхилимо істинну гіпотезу про
те, що колір очей та колір волосся – незалежні між собою.
Для цього натиснемо кнопку Summary (див. рис. 4.2). Ймовірність
помилки вказано на перетині Chi-square та Column 2 (див. рис. 4.3).
Рис. 4.3
51

Відкриємо файл Adstudy.sta. Для того, щоб порівняти середні для двох
вибірок натиснемо Statistics Æ Basic Statistics/Tables Æ t-test, independent,
by variables Æ ОK (див. рис. 4.4).
Рис. 4.4
Слід зазначити, що t-test є одним з найпоширеніших методів порівняння
середніх двох вибірок, дані яких можуть бути або залежні, або незалені.
Теоретично t-test можна використовувати навіть для малих вибірок
(
приблизно 10 спостережень), якщо дані приблизно нормально розподілені,
що можна визначити візуально за гістограмою.
Як Variables (groups) виберемо MEASURE01First list, та MEASURE02
second list відповідно. Далі натиснемо Summary (див. рис. 4.5).
В таблиці, що з’явилася
(див. рис.
4.6), серед інших показників
обчислено середні для обох змінних, t-статистику та F-статистику,
показано кількість спостережень змінних, кількість степенів свободи df. У
полі p вказано ймовірність помилки при відхиленні гіпотези про те, що
середні обох вибірок збігаються.
52

Рис. 4.5
Рис. 4.6
Якщо ж обрати Statistics Æ Basic Statistics/Tables Æ t-test, independent,
by groups Æ ОK замість t-test, independent, by variables, а в Variables, як
Grouping вибрати Gender, а як Dependent variables
MEASURE01 та
MEASURE02
(див. рис. 4.7), то ми отримаємо порівняння середніх двох
вибірок, згрупованих за статтю (див. рис. 4.8). Тобто для кожної змінної
буде пораховано значення середніх окремо для чоловіків і для жінок, і
будуть порівнюватися саме середні для чоловіків і жінок.
Отже ми провели аналіз гіпотези про рівність середніх припускаючи,
що змінні є незалежні, проте, якщо врахувати, що відповідні значення для
вибірок MEASURE01 та MEASURE02 є відповідями одних і тих же людей,
то природніше вважати, що відповідні змінні все-таки залежні. Тому,
доцільно проаналізувати нашу гіпотезу, використовуючи тест для залежних
вибірок.
53

Рис. 4.7
Рис. 4.8
Виберемо Statistics Æ Basic Statistics/Tables Æ t-test, dependent samples
Æ ОK. У Variables, як first variable, виберемо змінну MEASURE01, а як
second variable, виберемо MEASURE02, MEASURE03. Натиснемо Summary
(див. рис. 4.9).
В отриманій таблиці (див. рис. 4.10) відображено результати порівняння
середніх вибірок MEASURE01 та MEASURE02 та вибірок MEASURE01 та
MEASURE03, де в полі р вказано ймовірність помилки при відхиленні
гіпотези про те, що середні обох вибірок збігаються.
Слід ще раз наголосити на тому, що t-test застосовують на практиці у
тих випадках, коли:
1) ми маємо багато спостережень;
2) можна вважати, що дані розподілені нормально (це можна візуально
54

визначити за гістограмою, або графіком на нормальному ймовірнісному
папері – Normal probability plot).
Рис. 4.9
Рис. 4.10
Зазначимо, що з панелі t-тесту можна побудувати різноманітні графіки
для візуального порівняння середніх та варіації в двох групах. Як приклад
(див. рис. 4.11) наведено графік з t-test, independent, by variables (натисніть
у вікні аналізу
(див. рис.
4.5) Box & whisker plots). Такі графіки
допомагають зробити попередні висновки про рівність середніх.
55

Рис. 4.11
Розглянемо тести порівняння для інших характеристик вибірок.
Оцінити гіпотезу про рівність варіацій чи дисперсій змінних можна на
базі F-test, який можна знайти в таблиці результатів t-test; тут слід
зазначити, що, якщо дві оцінки дисперсії близькі одна до одної, то значення
F-статистики наближається до одиниці, адже F-статистику можна
розглядати як відношення двох незалежних оцінок дисперсії. Також для
оцінки гіпотези про рівність дисперсій можна використовувати тести
Levene test та Brown-Forsythe.
Виберемо Statistics Æ Basic Statistics/Tables Æ Difference tests: r, %,
means Æ ОK (див. рис. 4.12).
У вікні, що з’явилось (див. рис. 4.13), бачимо панелі трьох тестів, які
дозволяють перевірити гіпотези про рівність таких характеристик вибірок:
коефіцієнтів кореляції, математичних сподівань та ймовірностей.
Наприклад, можемо перевіряти гіпотезу про рівність математичних
сподівань тоді, коли стандартні відхилення відомі.
56

Рис. 4.12
Рис. 4.13
57

У полях Difference between two correlation coefficients як значення r1 та
r2 вводимо обчислені попередньо значення кореляцій для двох вибірок, а
як значення N1 та N2 вказуємо кількість елементів у двох вибірках
відповідно
(вибираємо two-sided). У полі р після натискання Compute
отримуємо ймовірність прийняття гіпотези про те, що кореляції обох
вибірок рівні.
Аналогічно у полях Difference between two means вказуємо M1 та M2
середні двох вибірок, а у полях StDv1 та StDv2 – стандартні квадратичні
відхилення обох вибірок відповідно. У поля N1 та N2 вводимо кількість
елементів в обох вибірках. В нашому випадку, для вказаних значень,
ймовірність помилки при відхиленні гіпотези про те, що середні обох
вибірок збігаються становить 0.0089 (див. рис. 4.14).
Рис. 4.14
Якщо для наведених вище тестів потрібно попередньо підрахувати
значення різних статистичних характеристик вибірок, то швидко зробити
це можна так:
1) виділяємо ті значення змінної, для яких ми хочемо обчислити
характеристику;
2) виконуємо Statistics Æ Statistics of Block Data Æ Columns Æ
потрібна характеристика.
58

Те ж можна проробити і для рядків таблиці.
59

Заняття 5
Непараметричні тести
У випадках, коли даних мало, або ми не можемо вважати, що вони
мають нормальний розподіл, замість t-тесту використовують інші тести:
тест знаків, тест Вілкоксона, тощо.
Створимо файл з даними, що зображено на рисунку
5.1. Для
дослідження були обрані кілька родин у яких є брати і сестри. Значення
змінних – це прибутки братів і сестер. Оскільки кожна пара (брат і сестра) з
однієї родини, то можемо вважати, що вони отримали приблизно однакове
виховання та освіту.
Рис. 5.1
Для аналізу скористаємося модулем Nonparametrics. Виконаємо
Statistics Æ Nonparametrics Æ Comparing two depending samples (variables)
Æ ОK (див. рис. 5.2).
У полі Variables вкажемо дві порівнювані змінні (див. рис. 5.3).
Натиснувши Sign Test отримуємо таблицю результатів (див. рис. 5.4).
59

Рис. 5.2
Рис. 5.3
Рис. 5.4
60

У табличці, що з’явилась, вказана статистика тесту знаків для першої та
другої змінних. У полі Percent v < V бачимо відсоток тих значень першої
змінної, що менші за відповідні їм значення другої змінної. У полі p-level
отримали ймовірність помилки при прийнятті гіпотези про те, що середні
вибірок різні.
Тест знаків застосовують для парних спостережень (кількість елементів
у обох вибірках повинна бути однакова). Цей тест часто використовують у
ситуаціях порівняння об’єктів чи їхніх характеристик до і після впливу
деякого фактора.
Тест Вілкоксона, так як і тест знаків, можна використати для перевірки
гіпотези про те чи різний середній прибуток чоловіків та жінок, які
отримали однакове виховання та освіту. Тому ці тести є замінниками t
тестів для залежних змінних.
Виконаємо Statistics Æ Nonparametrics Æ Comparing two depending
samples Æ Wilcoxon matched pairs test (див. рис. 5.3). Результат зображено
на рисунку 5.5.
Рис. 5.5
Якщо значення p-level з тесту знаків та тесту Вілкоксона приблизно
однакові, то даним тестам можна довіряти, інакше потрібно провести
додаткове дослідження.
Аналогами t-тесту для незалежних змінних можуть слугувати Wald-
Wolfowitz runs test та Mann-Whitney test. Нагадаємо, що такі тести можна
використовувати не обов’язково для парних спостережень.
Нехай в нас є дані про сукупні прибутки сімей в регіонах:
South
North
4000
5000
8000
10000
9000
11000
14000
12000
15000
22000
61

Створимо в пакеті Statistica нову таблицю даних і заповнимо першу
змінну (Var1) спочатку даними з South, а потім даними з North. Наступну
змінну (Var2) заповнимо значеннями
“1” навпроти значень з South і
значеннями “2” напроти значень з North
(див. рис. 5.6). Змінна Var2 є
групувальною змінною. Перейдемо до підмодулю Comparing two
independent samples: Statistics Æ Nonparametrics Æ Comparing two
independent samples (groups) Æ ОK (див. рис. 5.2).
Рис. 5.6
В полях Code for Group1, Code for Group2 вкажемо значення 1 та 2
відповідно (див. рис. 5.7).
Натиснувши кнопку Wald-Wolfowitz runs test отримаємо результат,
який зображено на рисунку 5.8.
Після виконання тесту отримали p-level=0.89, тобто ймовірність
помилки при прийнятті гіпотези про те, що вибірки не з однієї і тієї ж
популяції (реалізації двох випадкових величин з різними розподілами),
дуже висока.
Аналогічно виконаємо Mann-Whitney U test
(див. рис. 5.7) і отримаємо
p-level=0,2 (див. рис. 5.9).
62

Рис. 5.7
Рис. 5. 8
Рис. 5.9
63

Оскільки результати різні, то потрібне додаткове дослідження.
Зауважимо, що тест Wald-Wolfowitz більш чутливий до природи розподілу.
Розглянемо як перевірити гіпотезу про те, що спостереження
відповідають певному типу розподілу. Відкриємо файл Accident.sta (див.
рис. 5.10). У ньому містяться дані про щомісячну кількість ДТП на певній
частині деякої транспортної магістралі за 1983 та 1985 роки. У 1984 році
була проведена реконструкція цієї магістралі з метою більшої безпеки
руху. Нас цікавить чи дійсно реконструкція була ефективною.
Рис. 5.10
Перевіримо гіпотезу про те, що обидві змінні мають однакові середні і
однаково розподілені, тобто реконструкція не була ефективною. Виконаємо
Statistics Æ Nonparametrics Æ Observed versus expected χ2 Æ ОK (див. рис.
5.2). Як Observed frequencies оберемо Y_1985, а як Expected frequencies
оберемо Y_1983 (див. рис. 5.11). Натиснемо кнопку Summary.
Бачимо
(див. рис.
5.12), що кількість ДТП значно зменшилась і
ймовірність помилки р при відхиленні нульової гіпотези про однаковість
розподілів дуже мала. Отже, робимо висновок, що розподіли різні, тобто
заходи, що були вжиті між двома роками спостережень, мали певний
вплив.
Задача. Перевірити, чи симетрична монета. Підкинути монету 20 разів і
дані спостережень занести в першу змінну, а очікуваний результат 10, 10
занести в другу змінну та виконати тест.
64

Рис. 5.11
Рис. 5.12
Створимо новий файл даних з 10000 випадками (Cases) і заповнимо їх
згенерованими випадковими значеннями рівномірно розподіленими на
відрізку
[0,1]: Edit Æ Fill/Standardize Blocks Æ Fill Random Values.
65

Натиснемо Statistics Æ Distribution Fitting, виберемо рівномірний розподіл
(див. рис. 5.13) і натиснемо ОK. У вікні, що з’явиться (див. рис. 5.14) як
Variable обираємо створену змінну.
Рис. 5.13
Рис. 5.14
66

У закладці Parameters як Lower limit та Min. range Parameter задамо 0, а
як Upper limit та Max. range Parameter задамо 1 (див. рис. 5.15).
У закладці Options відмітимо Yes (continuous) у розділі Kolmogorov-
Smirnov test (див. рис. 5.16).
Рис. 5.15
67

Рис. 5.16
Натиснемо кнопку Summary. У табличці, що з’явилась (див. рис. 5.17),
вказана статистика для тестів Колмогорова-Смірнова та χ2.
Рис. 5.17
Якщо тести Kolmogorov-Smirnov та χ2 (Chi-Square) видають значення р,
які відмінні від 0 або n.s., то це означає, що ймовірність помилки при
відхиленні гіпотези про заданий розподіл велика і гіпотезу потрібно
прийняти.
В нашому прикладі гіпотеза про рівномірний розподіл приймається,
оскільки Kolmogorov-Smirnov: p =n.s.; Chi-Square: p = 0.42.
68

Натиснувши кнопку Plot of observed and expected distribution на
закладці Quick, можна графічно порівняти гістограму з щільністю обраного
розподілу (див. рис. 5.18).
Рис. 5.18
69

Заняття 6
Лінійна регресія
Створимо новий файл, в якому змінну VAR1 заповнимо послідовно
значеннями від 0 до 10, змінну VAR2 – випадковими значеннями від 0 до 1,
а змінну VAR3 задамо, як суму VAR1+ VAR2.
Виконаємо послідовність команд: Statistics Æ Basic Statistics/Tables Æ
Descriptive Statistics Æ Prob.&Scatterplots (див. рис. 6.1).
Рис. 6.1
Як Variables виберемо VAR1-VAR3, натиснемо кнопку 2D Scatterplot.
У першому списку змінних вкажемо VAR1, в другому
VAR3 і
натиснемо кнопку ОK (див. рис. 6.2).
На графіку, що з’явився, зображено пряму лінійної регресійної моделі
для VAR3 через VAR1, а у верхній частині вікна бачимо рівняння лінійної
регресії (див. рис. 6.3).
69

Рис. 6.2
Рис. 6.3
70

Якщо у змінній VAR3 замінити одне із значень, наприклад на 70, і
побудувати графік знову, то побачимо, що рівняння регресії буде
враховувати дане значення і з графіка буде очевидно, що 70 є викидом
(див. рис. 6.4).
Натиснемо піктограму Brushing. У вікні, що з’явиться зробимо
активними Exclude та Box, виділимо прямокутником значення (див. рис.
6.5) і натиснемо кнопку Apply. Виділене значення зникне з графіка і
регресійна пряма змінить своє положення.
Для того, щоб значення викиду не виводилось у наступних графіках та
не враховувалось при обчисленні регресійної формули, у змінній VAR4
заповнимо всі значення одиницями, а те значення, що стоїть напроти
викиду – нулем (див. рис. 6.6).
Рис. 6.4
71

Рис. 6.5
Рис. 6.6
72

У вікні Descriptive Statistics натиснемо кнопку Weight (див. рис. 6.1).
Оберемо змінну VAR4, перемкнемо Status на On та натиснемо OK (див.
рис. 6.7). Тепер при аналізі викиди враховуватися не будуть.
Рис. 6.7
Нехай маємо таку таблицю з даними:
Y
X
Z
40
100
10
50
200
20
50
300
10
70
400
30
65
500
20
65
600
20
80
700
30
де Y – врожайність, X – добрива, Z – опади.
Потрібно знайти формулу багатофакторної лінійної регресії для Y:
Y=B
+B
X+B Z,
0
1
2
де B
– невідомі коефіцієнти.
і
Виконаємо послідовність команд: Statistics Æ Multiple Regression, як
змінні оберемо Y – залежна, X і Z – незалежні (див. рис. 6.8). Натиснемо
OK. Отримуємо результат, який зображено на рис. 6.9.
73

Рис. 6.8
Рис. 6.9
74

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Приєднуйся до нас!
Підписатись на новини:
Наші соц мережі