– MedMuv

Home

17 Червня, 2024

Основи робот з пакетом STATISTICA. Створення та

редагування таблиць. Введення даних, кодування введення.

Імпорт та експорт даних. Категоризація даних. Створення

звітів.

Опис даних. Визначення типу та шкали вимірювання даних.

Використання графіків для візуалізації інформації. Основні

описові статистики в пакетах STATISTICA та OpenOffice.org Calc.

Визначення помилок, викидів та їх видалення. Перевірка гіпотез

щодо законів розподілу.

матеріали використано з доробку

Кафедра теорії ймовірностей, статистики

та актуарної математики, Київського

національного університету

імені Тараса Шевченка

Заняття 1

Дані в пакеті STATISTICA

Розпочнемо роботу з запуску пакету STATISTICA. Виконаємо Start Æ

Programs Æ Statistica Æ Statistica 7 (послідовність команд може бути

трохи іншою, якщо при установці пакету були вибрані інші опції). Після

завантаження програми перед нами з’явиться вікно з контекстною панеллю

для роботи з даними, а також відкриється таблиця нового або одного із

стандартних, вже існуючих файлів.

Головне правило користувача: нічого не змінювати у файлах-прикладах

пакету, або файлах інших користувачів.

Тому, натиснувши на Х у правому верхньому куті відкритої таблиці

даних, закриємо її.

Виберемо на верхній панелі Statistics. У меню, що з’явилося

(див.

рис. 1.1), нам пропонують обрати один з модулів для подальшої роботи.

Модуль – це набір статистичних засобів для роботи з певною специфічною

інформацією. Отже, кожен з модулів полегшує нам вирішення певних

статистичних задач.

Рис. 1.1

Дамо короткий опис модулів, які розглядатимемо в курсі:

Basic Statistics

Описова статистика (способи зображення

(візуалізації) даних, оцінка параметрів, деякі

параметричні тести)

Nonparametrics

Непараметричні тести

Distribution fitting

Можливість візуально підбирати криву розподілу

до існуючої гістограми

Multiple Regression

Багатофакторна (множинна) регресія.

(використовують, коли один показник залежить

від багатьох інших)

Advanced Linear/

Нестандартні типи регресій

Nonlinear Models Æ

Nonlinear estimation

Advanced Linear/

Аналіз часових рядів: визначення законів

Nonlinear Models Æ

циклічності, періодичності, тренду, дослідження

Time Series

стохастичної компоненти.

Multivariate Exploratory

Дискримінантний аналіз: знаходження

Techniques Æ

визначальних показників для класифікації

Discriminant Analysis

об’єктів у задані групи

Multivariate Exploratory

Кластерний аналіз: поділ даних на групи за

Techniques Æ Cluster

певними ознаками (наприклад, поділ країн на

Analysis

групи за показником ВВП)

Multivariate Exploratory

Факторний аналіз: проблеми класифікації і

Techniques Æ Factor

вибору показників, які є головними для опису

Analysis

даного явища

Виберемо File Æ New. У діалоговому вікні, що відкрилося (див. рис.

1.2), можемо вибрати кількість змінних і випадків, а також розміщення

таблиці даних, яку ми створюємо.

Рис. 1.2

Стандартна таблиця даних має розмір 10х10, де стовпці відповідають

змінним (VAR1, VAR2,…,VAR10), а рядки

– випадкам зі значеннями, які

змінні набувають.

Опція In a new Workbook розмістить новостворену таблицю у робочій

книзі, в яку також будуть записуватися всі графіки, діаграми і таблиці,

отримані у процесі роботи з даними. Опція As a standalone window створить

таблицю в окремому вікні так, що дані можна буде зберегти окремо

виконавши File Æ Save при активізованій таблиці. Слід зазначити, що

STATISTICA 7 оперує з „робочими книгами” – спеціальними файлами, в

яких зберігається, залежно від обраних користувачами опцій, та чи інша

інформація і результати роботи.

Коли Ви починаєте виконувати певні дії в пакеті, автоматично буде

створено файл звіту. На закладці Report можна вибрати розміщення даних

звіту (опції аналогічні згаданим раніше).

Натискаємо OK внизу вікна Create new document. З’явиться нова

порожня таблиця.

Якщо ми хочемо змінити кількість змінних, то натиснемо на верхній

панелі кнопку VARS Æ Add. У вікні, що з’явилося (див. рис. 1.3), вказуємо

скільки змінних ми хочемо додати і після якої змінної вставити нові змінні.

Також можна обрати ім’я змінної за замовчуванням, тип даних і довге ім’я.

Рис. 1.3

Перемістити змінні можна таким чином: натиснути на верхній панелі

кнопку VARS Æ Move (або виділити змінну і натиснути праву кнопку миші

для отримання контекстного меню в якому вибираємо Move Variables).

Вказуємо, з якої по яку змінну ми хочемо перемістити, і після якої змінної

їх вставити (див. рис. 1.4).

Аналогічно, операції VARS Æ Copy, VARS Æ Delete (або Copy Variables і

Delete Variables в контекстному меню) дають змогу скопіювати певні

змінні, вставивши їх після вказаної нами змінної, та видалити вказані

користавачем змінні.

Аналогічно всі згадані операції виконуються з випадками за допомогою

меню Cases верхньої панелі.

Рис. 1.4

Виділимо якусь змінну, натиснувши на її ім’я лівою кнопкою миші

(LC), далі натиснемо праву кнопку миші (RC) та виберемо Variable Specs.

На екрані з’явиться вікно опису даної змінної (див. рис. 1.5).

Рис. 1.5

Дамо короткий опис полів для заповнення:

Опції для вибору різних характеристик шрифтів

Name

Ім’я змінної

Type

Вибрати тип даних – число подвійної точності,

байти, ціле число, текст

Length

Ширина колонки даної змінної (для тексту)

Excluded

Виключити змінну з подальшого аналізу

Label

Використовувати значення змінної як тексові мітки,

наприклад для точок на графіку

MD Code

(missing data code) – значення, яке за замовчування

присвоюється змінній, якщо її справжнє значення

відсутнє з якихось причин. (Наприклад, у нас немає

спостережень даного показника у роки війни)

Display format

Вибір формату відображення числа (як дата, тощо)

– дуже багато різних опцій – досліджуйте!

Long name

Поле, в якому можна задавати формулу для

обчислення значення даної змінної.

Кнопки мають такі функції:

<< , >> для переходу до попередньої і наступної змінної, яку

відображає даний діалог;

All specs відкриває таблицю з усіма специфікаціями змінних;

Values/Stats дає змогу дізнатися

„швидку статистику”

– значення

окремих випадків, середнє арифметичне, стандартне відхилення та інше

(див. рис. 1.6).

Кнопка Functions відкриває вікно вибору функцій для формули, яка

визначатиме значення змінної.

Проілюструємо це на прикладі. Для цього заповнимо колонки перших

двох змінних довільними значеннями. Далі виділимо третю змінну,

натиснемо RC Æ Variable Specs. У полі Long Name напишемо: =v1+v2. Далі

двічі натиснемо OK. Бачимо, що тепер змінна VAR3 є сумою VAR1 та VAR2.

Зауваження: імена v1, v2,… за замовчуванням присвоюються по порядку

першій, другій, і т.д. змінним. Якщо ім’я першої змінної буде VAR10, то v1

буде відповідати саме змінній VAR10.

Якщо змінюються значення незалежних змінних, то перерахувати

залежну змінну можна натиснувши на верхній панелі кнопку VARS Æ

Recalculate або кнопку x=?.

Рис. 1.6

Інколи бувають потрібні не точні значення змінних, а їх порівняння з

іншими значеннями цієї ж змінної, тобто треба замінити значення змінної

на їх відносне місце у варіаційному ряді за зростанням чи спаданням. Для

цього натискаємо VARS Æ Rank. У вікні, що з’явиться (див. рис. 1.7),

вибираємо: найбільшому чи найменшому значенню присвоїти ранг 1 (тобто

за спаданням чи за зростанням будуть впорядковані значення), а також

обираємо опцію Mean

(якщо хочемо, щоб однакові значення мали

однаковий усереднений ранг) або Sequential (якщо хочемо, що однакові

значення мали послідовні значення рангу).

Інколи буває потрібно розбити значення змінних на групи (наприклад,

якщо певний показник більший за певну величину або менший за цю

величину). Виділяємо, наприклад, першу змінну, далі натискаємо VARS Æ

Recode. У першому полі Include If пишемо умову для потрапляння значення

змінної у групу: v1<5. У другому полі Include If пишемо: v1>=5. У полях

New Value 1 та New Value 2 вибираємо 1 та 2 відповідно (див. рис. 1.8).

Натискаємо ОК і зберігаємо змінені значення. Бачимо, що всі значення, що

були менші за 5, отримали нове значення 1, а ті, що були не менші за 5

отримали значення 2.

Рис. 1.7

Рис. 1.8

Оскільки візуально краще працювати з текстом, який би вказував назви

груп, на які ми щойно розбили значення змінної, то виконаємо Data Æ Text

Labels Editor і для значень 1 та 2 введемо назви груп, наприклад male та

female і натиснемо Enter. Натискаючи кнопку Show/Hide Text Labels на

верхній панелі бачимо, що у всіх клітинках замість числових значень

з’явились назви груп.

Для заповнення значень змінної можемо використовувати послідовність

команд RC Æ Fill/Standartize Block Æ Fill Random Values. У результаті

змінна буде заповнена випадковими значеннями.

Якщо хочемо заповнити весь стовпчик або весь рядок одним й тим

самим значенням, то набираємо це значення в першій клітинці. Далі

починаючи з цієї ж клітинки виділяємо вниз або вправо стовпчик чи рядок

відповідно і натискаємо RC Æ Fill/Standartize Block Æ Fill/Copy Down або

RC Æ Fill/Standartize Block Æ Fill/Copy Right відповідно.

Якщо ми хочемо заповнити стовпчик арифметичною прогресією, то в

перших двох клітинках вводимо два перші члени арифметичної прогресії,

виділяємо ці клітинки, переміщуємо курсор у правий нижній кут виділеної

області, доки він не змінить форму хрестика і тягнемо вниз з натиснутою

лівою кнопкою миші до тієї клітинки, до якої потрібно заповнити стовпчик.

Для зміщення всіх даних у змінній, як одне ціле, на кілька позицій

використовуємо на верхній панелі кнопку VARS Æ Shift (Lag).

Для стандартизації змінних використовуємо на верхній панелі кнопку

VARS Æ Standardize.

Створені нами дані ми можемо зберігати в різних форматах. Для цього

при виділеному окремому вікні з даними натиснемо File Æ Save as. Далі

маємо можливість вибрати формат, в якому хочемо зберегти інформацію.

Якщо дані містяться в робочій книзі, клацаємо правою клавішею миші на

назві таблиці в дереві документів (зліва) і вибираємо Save item as. Потрібну

таблицю, графік можна виокремити з робочої книги за допомогою

команди Extract as a standalone, якщо відмітити їх у робочій книзі і

натиснути праву клавішу миші (див. рис. 1.9).

Якщо у нас є дані в Excel і ми хочемо частину з цих даних скопіювати у

файл в Statistica, то існує два способи це зробити:

1. за допомогою звичайних операцій Copy в Excel і Paste в Statistica,

2. або знову ж таки Copy в Excel та Edit Æ Paste special Æ Paste Link

в Statistica.

Другий спосіб має ту перевагу над першим, що при зміні даних в

таблиці Excel, дані в файлі Statistica теж будуть відповідно змінюватися, а

при першому способі цього не відбудеться. Якщо після внесення даних в

файл з допомогою Paste Link подивитися на Edit Æ Link, то побачимо там

запис про те з яким файлом встановлено динамічний зв’язок – в нашому

випадку на файл Excel.

Рис. 1.9

Для створення звіту – тобто файлу, в якому будуть записані результати

всіх дій, що ми проводимо, як-от: таблиці, графіки тощо, – натискаємо File

Æ Output Manager (див. рис. 1.10). Вибираємо опцію, щоб інформація

автоматично відсилалась до файлу звіту, потім визначаємо, чи

створюватиметься окремий звіт для кожного графіку/аналізу, чи в одному

вікні зливатиметься вся звітність, чи створиться файл звіту із вказаним

іменем.

Аналогічно у верхній частині вікна можна вибрати опції щодо

використання робочих книг.

Рис. 1.10

Розглянемо з якими файлами ми матимемо справу, працюючи у пакеті

Statistica. Про інформацію, що міститься у файлах, свідчить розширення

файлу:

.sta

Файли з даними у вигляді таблиць

.stw

Файли робочих книг

.stg

Файли з графіками

.str

Файли звіту

.svb, .svx

Файли STATISTICA Visual Basic чи макроси

.stm

Файли матриць

.snn

Файли нейронних мереж

.sdm

Файли проектів модулю Data Miner

.sti

Файли на віддалених серверах

Для роботи з усіма змінними таблиці даних або кількома файлами

даних використовуємо меню Data. Наприклад, щоб транспонувати таблицю

даних виконуємо Data Æ Transpose Æ File.

Часом виникає потреба об’єднати дані з двох файлів в один. Наприклад,

потрібно додати спостереження з показниками підприємств за нові роки,

або додати нові показники діяльності підприємств до тих, що вже

спостерігають протягом певного часу.

Для цього виконуємо Data Æ Merge. У вікні, що з’явиться (див. рис.

1.11), вказуємо імена файлів з якими будуть здійснюватися операції і

вибираємо опції об’єднання на закладках Variables чи Cases.

Рис. 1.11

Розглянемо як створювати макроси, які дають змогу автоматизувати

виконання деякої послідовності команд. Натиснемо Tools Æ Macro Æ Start

Recording Log of Analyses (Master Macro) (див. рис. 1.12).

Рис. 1.12

Індикатором того, що запис команд почався і триває, слугує віконце з

кнопками управління записом. Наприклад, виберемо на верхній панелі

Graphs Æ Histograms потім натиснемо Variables Æ Select all Æ Ok ще раз

натиснемо Ok. Отримаємо гістограми усіх змінних. Після цього перейдемо

в верхнє меню Statistics Æ Basic statistics/Tables Æ Descriptive statistics Æ

OK. Знову оберемо змінну: Variables Æ Select all Æ Ok. Натиснемо кнопку

Summary. З’явиться таблиця з описовою статистикою всіх змінних. Для

закінчення запису макросу натиснемо кнопку зупинки макросу. У вікні, яке

з’явиться (див. рис. 1.13), натискаємо Ok. Бачимо текст STATISTICA Visual

Basic програми, яка з послідовністю виконаних операцій (див. рис. 1.14).

Рис. 1.13

Рис. 1.14

Натискаємо File Æ Save as Global Macro і зберігаємо макрос в головну

директорію, в якій встановлено пакет Statistica.

Щоб виконати макрос вибираємо на верхній панелі Tools Æ Macro Æ

Macros. Відмічаємо потрібний макрос у вікні, що з’явилось, і натискаємо

Run (див. рис. 1.15).

Потім оберемо Tools Æ Customize. Відмітимо на закладці Toolbars

категорію Macro

– з’явиться нова панель інструментів. На закладці

Command/Macros виберемо категорію Macros (див. рис.

1.16), і потім

перетягнемо створений раніше макрос в панель інструментів. Тепер після

натискання кнопки з назвою макросу будуть автоматично побудовані

гістограми і проведена описова статистика змінних.

Аналогічно можна записувати макрос, що відтворює послідовність дій з

клавіатури (Tools Æ Macro Æ Start Recording Keyboard Macros). У цьому

випадку команди, що будуть записані в макрос, повинні бути введені

тільки за допомогою клавіатури.

Рис. 1.15

Рис. 1.16

Заняття 2

Описова статистика

Якщо потрібно знайти значення теоретичної функції розподілу в певній

точці, або, вказавши значення функції розподілу, знайти квантиль, то для

цього можна скористатися імовірнісним калькулятором: Statistics Æ

Probability Calculator Æ Distribution (див. рис. 2.1).

Рис. 2.1

Панель Probability Distribution Calculator

(див.рис.

2.2) дає змогу

подивитися, як виглядає один із даних нам розподілів. Змінюючи значення

параметрів розподілу, будемо бачити автоматичну зміну щільності розподілу

(Density Function) та функції розподілу

(Distribution Function). Задавши

значення в полі X після натискання Compute в полі р з’явиться значення

функції розподілу F(x). Аналогічно в полі р можна задати ймовірність від 0

до 1, тоді після натискання Compute в полі X з’явиться значення квантилі

рівня p. Якщо відмітити Create Graph та Send to Report і натиснути

Compute, то в окремих вікнах отримаємо, відповідно, графік та звіт (див.

рис. 2.2).

Рис. 2.2

Розглянемо модуль Basic Statistics/Tables. Натиснемо Statistics Æ Basic

Statistics/Tables

(див. рис.

2.3) і зайдемо в розділ Descriptive Statistics.

Відкриємо файл Adstudy.sta (…\STATISTICA 7\Examples\ Datasets\), у якому

зібрані дані про оцінки чоловіками та жінками реклами напоїв Pepsi та Coke.

Кожен опитуваний оцінював рекламу по різних показниках, виставляючи

оцінку від 0 до 9 (див. рис. 2.4).

Рис. 2.3

Рис. 2.4

Активізуємо вікно Descriptive Statistics з нижньої панелі. В полі Variables

вкажемо 3-Measure01.

В закладці Quick знаходяться найбільш вживані описові статистики, таблиця

частот, гістограма, а також „коробка з вусами” (див. рис. 2.5). Для того щоб

побачити описові статистики натиснемо Summary. В інших закладках ми

можемо налаштувати і подивитись детальніші характеристики.

Рис. 2.5

Так, якщо вибрати закладку Advanced, а потім натиснути Select all stats та

Summary то отримаємо інші характеристики даних (див. рис. 2.6). Зокрема,

значення Skewness показує коефіцієнт асиметрії, тобто наскільки розподіл

“скособочений”. А значення Kurtosis показує наскільки розподіл

“пікоподібний”. Для стандартного нормального розподілу Skewness та

Kurtosis дорівнюють нулеві.

Повернемось до закладки Quick. Натиснувши кнопку Frequency Tables

отримаємо таблицю частот для нашої вибірки. Натиснувши кнопку

Histograms отримаємо гістограму, на якій червоною лінією зображено

підігнану криву нормального розподілу (див. рис. 2.7).

В закладці Options ми можемо обрати тип “коробки з вусами”. Оберемо

перший тип Median/Quart/Range. Повернемось у закладку Quick і натиснемо

Box & whisker plot for all variables – з’явиться вікно з рисунком коробки з

вусами, в якій маленький прямокутник відповідає значенню медіани, великий

прямокутник – нижній та верхній квартилі, а вуса – найменшому та

найбільшому значенню вибірки (див. рис. 2.8).

Рис. 2.6

Рис. 2.7

Рис. 2.8

В закладці Categorized Plots натиснемо Categorized box & whisker plots

(див. рис. 2.9). Далі оберемо 1-GENDER, як першу змінну, 2-ADVERT, як

другу. Третю змінну вказувати не будемо і натиснемо ОК. З’явиться

вікно Select Codes for the grouping variables. Для Gender, і для Advert

виберемо ALL (див. рис. 2.10). Натиснемо ОК. У вікні, що з’явиться (див.

рис. 2.11), отримуємо коробки з вусами окремо для Pepsi і Coke, і окремо

для чоловіків і жінок. Бачимо, що реклама Pepsi подобається чоловікам

більше, ніж жінкам, а реклама Coke навпаки. При цьому у жінок розкид

уподобань більший. Зауважимо, що отримані дані стосуються першої вибірки.

Для того, щоб візуально побачити, наскільки наша вибірка відповідає

нормальному закону розподілу у вікні Descriptive Statistics в

закладці Prob. & Scatterplots натиснемо Normal Probability Plots (див.

рис. 2.12).

Рис. 2.9

Рис. 2.10

Рис. 2.11

Рис. 2.12

Чим ближче точки розміщені до прямої, на графіку який з’явився, тим краще

гаусів закон описує розподіл наших даних ( див. рис. 2.13).

Якщо ми хочемо вибирати той тип розподілу з яким візуально

найкраще узгоджується наша вибірка, то виконуємо Graphs Æ

Graphs Æ Quantile-Quantile Plots (див. рис. 2.14). Перейдемо на закладку

Advanced. За допомогою кнопки Variables задаємо потрібну змінну. У полі

Distribution вибираємо розподіл, на відповідність якому хочемо перевірити

нашу вибірку (див. рис. 2.15) і натискаємо ОК. У результаті отримуємо Q-

Q графік, точки якого тим ближче розміщені до прямої, чим краще заданий

тип розподілу описує наші даних.

Наприклад, з рисунка 2.16 видно, що експоненційний розподіл візуально

не підходить до наших даних.

Рис. 2.13

Рис. 2.14

Рис. 2.15

Рис. 2.16

Заняття 3

Описова статистика

(графічна візуалізація)

Відкриємо файл adstudy.sta

(…\STATISTICA

7\Examples\ Datasets\).

Натиснемо Statistics Æ Basic Statistics/Tables, зайдемо в розділ Descriptive

Statistics і в закладці Prob. & Scatterplots натиснемо Half-Normal

Probability Plot. Або ж відкриємо Graphs Æ 2D Graphs Æ Normal Probability

Plots і натиснемо у вікні, що з’явиться, Quick Æ Graph Type: Half-Normal

(див. рис. 3.1).

Рис. 3.1

Вибираємо як змінну для аналізу 4-MEASURE02 і натискаємо OK.

Отримуємо графік (див. рис. 3.2), на якому побачимо, наскільки дані

вибірки узгоджуються з напівнормальним розподілом, щільність якого

визначається, як

⎧2p

(x),

≥

p(x− x

)

min

=⎨

⎩

де

(x)

– щільність нормального розподілу N(0,1), а

– найменше

min

спостереження у вибірці.

Якщо наша вибірка має тренд, то вибравши Detrended Normal

Probability Plot (відповідно Graph Type: Detrended), отримаємо графік, на

якому можна побачити, як розподілені залишки, якщо виділено тренд (див.

рис. 3.3).

Рис. 3.2

Припустимо, ми хочемо отримати гістограму вибірки, категоризовану за

певним значенням. Наприклад, для даних з файлу adstudy.sta потрібно

отримати гістограму окремо для чоловіків і окремо для жінок. Вибираємо

Statistics Æ Basic Statistics/Tables Æ Descriptive Statistics і натискаємо у

закладці Categ.plots кнопку Categorized Histograms (див. рис. 3.4). У вікні

Select one or two grouping (categorization) variables вибираємо Gender як

first variable, як second variable не вибираємо нічого. Натискаємо ОК. У

вікні Select code for grouping variables натискаємо All, ОК. Отримуємо в

одному вікні 2 гістограми (див. рис. 3.5).

Рис. 3.3

Рис. 3.4

Переходимо на закладку Prob. & Scatterplots. Як змінні Variables

виберемо MEASURE01 та MEASURE02. Натиснемо кнопку 2D Scatterplot. У

вікні Select two var. lists

(horizontal and vertical vars in plots) як First

(horizontal) variable list вибираємо

3-MEASURE01, як Second (vertical)

variable list вибираємо 4-MEASURE02. Натиснемо ОК. Отримаємо графік

(див. рис. 3.6), на якому зображено синіми кружечками сумісні значення

вибірок MEASURE01 та MEASURE02, а червоною лінією – пряму лінійної

регресії для цих даних. Штриховими лініями позначено

95% довірчу

область, у якій мали б знаходитись сумісні значення вибірок для даної

регресійної моделі.

Рис. 3.5

Перейшовши до закладки Normality, натиснувши на кнопку

histograms, bivariate distributions (див. рис. 3.7) і вибравши у вікні Select two

variable lists 3-MEASURE01 як First variable list і 4-MEASURE02 як Second

variable list, отримаємо діаграму, в якій висота кожного стовпчика

дорівнює кількості однакових відповідних пар з вибірок MEASURE01 та

MEASURE02 (див. рис. 3.8).

Рис. 3.6

Рис. 3.7

Рис. 3.8

Якщо ми хочемо подивитися на даний рисунок з іншої точки, то

натиснемо кнопку 3D Rotation control під головним меню. У вікні, що

з’явиться (див. рис. 3.9), ми можемо змінити розміщення нашої діаграми

так, щоб найкраще відображались ті особливості даних, що нас цікавлять.

Якщо натиснути кнопку Analytic exploratory spin options, то наша діаграма

почне обертатись. Коли вона буде перебувати у потрібному нам положенні

натиснемо Stop.

Виконаємо Graphs Æ Histograms, закладка Advanced (див. рис. 3.10).

Виберемо опцію Showing type: Cumulative – це означає, що гістограма буде

накопичувальною. Звичайна гістограма дає уявлення про графік щільності,

а накопичувальна – про графік функції розподілу. Як variables виберемо

MEASURE01. У полі Graph type виберемо Regular. З розподілів можемо

вибрати той, який ми хочемо підібрати до даної гістограми. Натиснемо ОК.

Отримаємо накопичувальну гістограму з червоною лінією графіка обраної

теоретичної функції розподілу (див. рис. 3.11).

Рис. 3.9

Рис. 3.10

Рис. 3.11

Якщо потрібно на одному графіку намалювати гістограми для двох

вибірок, то як Graph Type виберемо Multiple. Наприклад, як Variables

виберемо MEASURE01 та MEASURE02, а розподіл Normal. Отримаємо дві

накопичені гістограми на одному графіку (див. рис. 3.12).

Якщо хочемо в одному вікні виводити різні методи опису вибірок

(коробки з вусами, гістограми тощо), то вибираємо, наприклад, Graphs Æ

2D Graphs Æ Scatterplots w/Box plots (див. рис. 3.13). Оберемо дві змінні

MEASURE01 та MEASURE02. Натиснемо ОК. Отримаємо діаграму

розсіювання разом з коробкою з вусами для обох змінних (див. рис. 3.14).

Виконаємо Graphs Æ Stats 3D XYZ Æ Surface plots. У вікні, що з’явиться

(див. рис. 3.15), оберемо метод підгонки Fit: Quadratic, за допомогою якого

отримаємо квадратичну поверхню за трійками спостережень X, Y, Z. У

Variables виберемо як змінні відповідно вибірки MEASURE01,

MEASURE02, MEASURE03. Натиснувши ОК отримуємо потрібну

поверхню (див. рис. 3.16).

Рис. 3.12

Рис. 3.13

Рис. 3.14

Рис. 3.15

Рис. 3.16

Виконаємо Statistics Æ Basic Statistics/Tables Æ Correlation matrix.

Вибираємо One variable list та Select All, натискаємо ОК, Summary (див. рис.

3.17). З’явиться кореляційна матриця

(див. рис. 3.18), у якій червоним

кольором виділено значення кореляцій, які значимі з рівнем p=0.05.

Рис. 3.17

Рис. 3.18

Щоб змінити стандартний рівень значимості p=0.05, перейдемо в

закладку Options і введемо нове значення у віконці p-level for highlighting

(див. рис. 3.19).

Рис. 3.19

Якщо виділити клітину в кореляційній матриці, наприклад 0.30 на

перетині MEASURE15 та MEASURE3, і натиснути праву кнопку миші Right

Click Æ Graphs of Input Data Æ Scatteplot by MEASURE15 Æ Regretion,

95% conf., то побачимо графік, на якому зображені сумісні значення двох

змінних MEASURE15 і MEASURE3, відображено їх кореляцію, та рівняння і

графік відповідної лінійної регресійної прямої (див. рис. 3.20).

Рис. 3.20

Перейдемо в панель аналізу Nonparametric: Statistics Æ Nonparametrics

Æ Correlations (Spearman etc.) Æ ОК (див. рис. 3.21).

Виберемо як Variables MEASURE01 та MEASURE02 і підрахуємо для

них кореляцію Спірмена. Для цього виберемо Compute:Detailed report і

натиснемо кнопку Spearman R (див. рис. 3.22).

Рис. 3.21

Рис. 3.22

Побачимо, що значення кореляції Спірмена

(див. рис.

3.23)

відрізняється від підрахованої раніше кореляції Пірсона. Насправді

кореляція Спірмена – це кореляція між ранжованими значеннями змінних

MEASURE01 та MEASURE02. Тобто якби в модулі Basic Statistics ми

проранжували значення змінних MEASURE01 та MEASURE02 і підрахували

для них кореляцію, то побачили б, що вона збігається з кореляцію

Спірмена.

Рис. 3.23

Натиснемо Graphs Æ Icon Plots. У вікні, що з’явиться (див. рис. 3.24), у

Variables виберемо для графічного аналізу всі змінні. У полі Graph Type

можемо вибрати тип діаграми. Оберемо тип діаграми Chernoff Faces, тоді

кожна змінна буде відповідати за певний параметр обличчя

– висоту вух,

ширину обличчя тощо (див. рис. 3.25).

Рис. 3.24

Рис. 3.25

Якщо вибрати тип Stars, то значення всіх змінних будуть відкладені на

променях послідовно за годинниковою стрілкою (див. рис. 3.26). Якщо

обрати тип Pies, то значення кожної змінної буде відповідним кольором

зображене у секторі круга (див. рис. 3.27). Отже, за даними діаграмами

можна візуально отримати уявлення про дані.

Натиснемо Statistics Æ Basic statistics/Tabels Æ Frequency TablesÆ ОК.

У Variables оберемо змінну MEASURE01 (див. рис. 3.28). Натиснувши

Summary отримуємо таблиці частот – звичайну, відсоткову і накопичену

(див. рис. 3.29).

Рис. 3.26

Рис. 3.27

Рис. 3.28

Рис. 3.29

У закладці Advanced

(див. рис.

3.30) ми можемо більш точно

налаштувати параметри таблиці частот до наших вимог.

Рис. 3.30

Наведемо короткий опис опцій для вибору різних параметрів таблиць

частот у пакеті Statistica:

No. of exact intervals

Вказуємо точну кількість інтервалів

“Neat” intervals

Границі інтервалів будуть

“гарними” числами,

approximate no.

але їх кількість може трохи відрізнятись від

вказаного числа

Step size

Можемо вказувати розмір інтервалів

Integer categories

Використовують, коли значення змінної є цілими

числами

User-specified

Використовуємо, коли користувач бажає точно

вказати розміри всіх інтервалів

Для того, щоб самостійно вказати розміри всіх інтервалів, натискаємо

кнопку, що міститься внизу поряд з написом User-specified categories. У

вікні Define Categories, що з’явилося, вказуємо умови для внесення значень

в інтервал, наприклад, v3<2, v3<=5, v3<=9, v3>=5

(див. рис.

3.31).

Натискаємо ОК, Summary. Отримуємо нову таблицю частот з вказаними

інтервалами (див. рис. 3.32). Значення спостережень враховуються лише в

одній групі. Підрахунок у таблиці проводиться послідовно зверху вниз.

Рис. 3.31

Рис. 3.32

Заняття 4

Перевірка гіпотез

Для того, щоб перевірити гіпотезу про залежність двох показників

виконаємо Statistics Æ Nonparametrics Æ 2×2 Table Æ ОK (див. рис. 4.1).

Рис. 4.1

Таблицю, яка з’явилась використовують, коли є потреба в перевірці

зв’язку між двома змінними. Наприклад ми хочемо перевірити, чи

пов’язані між собою такі два показники як колір очей та колір волосся.

Можна провести опитування в групі про колір очей та волосся і занести в

таблицю ці дані (див. рис. 4.2)

Рис. 4.2

Нехай

, p

, q

Якби

в таблиці 4.1 були ймовірності, то у разі коли колір очей та колір волосся

незалежні виконувалось би співвідношення

, i,j=1,2.

Очі

Волосся

Темні

Світлi

Темне

Світле

Таб. 4.1

За допомогою критерію χ2 (Chi-square) можна визначити ймовірність

помилки, якщо ми, на основі наших даних, відхилимо істинну гіпотезу про

те, що колір очей та колір волосся – незалежні між собою.

Для цього натиснемо кнопку Summary (див. рис. 4.2). Ймовірність

помилки вказано на перетині Chi-square та Column 2 (див. рис. 4.3).

Рис. 4.3

Відкриємо файл Adstudy.sta. Для того, щоб порівняти середні для двох

вибірок натиснемо Statistics Æ Basic Statistics/Tables Æ t-test, independent,

by variables Æ ОK (див. рис. 4.4).

Рис. 4.4

Слід зазначити, що t-test є одним з найпоширеніших методів порівняння

середніх двох вибірок, дані яких можуть бути або залежні, або незалені.

Теоретично t-test можна використовувати навіть для малих вибірок

(

приблизно 10 спостережень), якщо дані приблизно нормально розподілені,

що можна визначити візуально за гістограмою.

Як Variables (groups) виберемо MEASURE01 – First list, та MEASURE02

– second list відповідно. Далі натиснемо Summary (див. рис. 4.5).

В таблиці, що з’явилася

(див. рис.

4.6), серед інших показників

обчислено середні для обох змінних, t-статистику та F-статистику,

показано кількість спостережень змінних, кількість степенів свободи df. У

полі p вказано ймовірність помилки при відхиленні гіпотези про те, що

середні обох вибірок збігаються.

Рис. 4.5

Рис. 4.6

Якщо ж обрати Statistics Æ Basic Statistics/Tables Æ t-test, independent,

by groups Æ ОK замість t-test, independent, by variables, а в Variables, як

Grouping вибрати Gender, а як Dependent variables

– MEASURE01 та

MEASURE02

(див. рис. 4.7), то ми отримаємо порівняння середніх двох

вибірок, згрупованих за статтю (див. рис. 4.8). Тобто для кожної змінної

буде пораховано значення середніх окремо для чоловіків і для жінок, і

будуть порівнюватися саме середні для чоловіків і жінок.

Отже ми провели аналіз гіпотези про рівність середніх припускаючи,

що змінні є незалежні, проте, якщо врахувати, що відповідні значення для

вибірок MEASURE01 та MEASURE02 є відповідями одних і тих же людей,

то природніше вважати, що відповідні змінні все-таки залежні. Тому,

доцільно проаналізувати нашу гіпотезу, використовуючи тест для залежних

вибірок.

Рис. 4.7

Рис. 4.8

Виберемо Statistics Æ Basic Statistics/Tables Æ t-test, dependent samples

Æ ОK. У Variables, як first variable, виберемо змінну MEASURE01, а як

second variable, виберемо MEASURE02, MEASURE03. Натиснемо Summary

(див. рис. 4.9).

В отриманій таблиці (див. рис. 4.10) відображено результати порівняння

середніх вибірок MEASURE01 та MEASURE02 та вибірок MEASURE01 та

MEASURE03, де в полі р вказано ймовірність помилки при відхиленні

гіпотези про те, що середні обох вибірок збігаються.

Слід ще раз наголосити на тому, що t-test застосовують на практиці у

тих випадках, коли:

1) ми маємо багато спостережень;

2) можна вважати, що дані розподілені нормально (це можна візуально

визначити за гістограмою, або графіком на нормальному ймовірнісному

папері – Normal probability plot).

Рис. 4.9

Рис. 4.10

Зазначимо, що з панелі t-тесту можна побудувати різноманітні графіки

для візуального порівняння середніх та варіації в двох групах. Як приклад

(див. рис. 4.11) наведено графік з t-test, independent, by variables (натисніть

у вікні аналізу

(див. рис.

4.5) Box & whisker plots). Такі графіки

допомагають зробити попередні висновки про рівність середніх.

Рис. 4.11

Розглянемо тести порівняння для інших характеристик вибірок.

Оцінити гіпотезу про рівність варіацій чи дисперсій змінних можна на

базі F-test, який можна знайти в таблиці результатів t-test; тут слід

зазначити, що, якщо дві оцінки дисперсії близькі одна до одної, то значення

F-статистики наближається до одиниці, адже F-статистику можна

розглядати як відношення двох незалежних оцінок дисперсії. Також для

оцінки гіпотези про рівність дисперсій можна використовувати тести

Levene test та Brown-Forsythe.

Виберемо Statistics Æ Basic Statistics/Tables Æ Difference tests: r, %,

means Æ ОK (див. рис. 4.12).

У вікні, що з’явилось (див. рис. 4.13), бачимо панелі трьох тестів, які

дозволяють перевірити гіпотези про рівність таких характеристик вибірок:

коефіцієнтів кореляції, математичних сподівань та ймовірностей.

Наприклад, можемо перевіряти гіпотезу про рівність математичних

сподівань тоді, коли стандартні відхилення відомі.

Рис. 4.12

Рис. 4.13

У полях Difference between two correlation coefficients як значення r1 та

r2 вводимо обчислені попередньо значення кореляцій для двох вибірок, а

як значення N1 та N2 вказуємо кількість елементів у двох вибірках

відповідно

(вибираємо two-sided). У полі р після натискання Compute

отримуємо ймовірність прийняття гіпотези про те, що кореляції обох

вибірок рівні.

Аналогічно у полях Difference between two means вказуємо M1 та M2 –

середні двох вибірок, а у полях StDv1 та StDv2 – стандартні квадратичні

відхилення обох вибірок відповідно. У поля N1 та N2 вводимо кількість

елементів в обох вибірках. В нашому випадку, для вказаних значень,

ймовірність помилки при відхиленні гіпотези про те, що середні обох

вибірок збігаються становить 0.0089 (див. рис. 4.14).

Рис. 4.14

Якщо для наведених вище тестів потрібно попередньо підрахувати

значення різних статистичних характеристик вибірок, то швидко зробити

це можна так:

1) виділяємо ті значення змінної, для яких ми хочемо обчислити

характеристику;

2) виконуємо Statistics Æ Statistics of Block Data Æ Columns Æ

потрібна характеристика.

Те ж можна проробити і для рядків таблиці.

Заняття 5

Непараметричні тести

У випадках, коли даних мало, або ми не можемо вважати, що вони

мають нормальний розподіл, замість t-тесту використовують інші тести:

тест знаків, тест Вілкоксона, тощо.

Створимо файл з даними, що зображено на рисунку

5.1. Для

дослідження були обрані кілька родин у яких є брати і сестри. Значення

змінних – це прибутки братів і сестер. Оскільки кожна пара (брат і сестра) з

однієї родини, то можемо вважати, що вони отримали приблизно однакове

виховання та освіту.

Рис. 5.1

Для аналізу скористаємося модулем Nonparametrics. Виконаємо

Statistics Æ Nonparametrics Æ Comparing two depending samples (variables)

Æ ОK (див. рис. 5.2).

У полі Variables вкажемо дві порівнювані змінні (див. рис. 5.3).

Натиснувши Sign Test отримуємо таблицю результатів (див. рис. 5.4).

Рис. 5.2

Рис. 5.3

Рис. 5.4

У табличці, що з’явилась, вказана статистика тесту знаків для першої та

другої змінних. У полі Percent v < V бачимо відсоток тих значень першої

змінної, що менші за відповідні їм значення другої змінної. У полі p-level

отримали ймовірність помилки при прийнятті гіпотези про те, що середні

вибірок різні.

Тест знаків застосовують для парних спостережень (кількість елементів

у обох вибірках повинна бути однакова). Цей тест часто використовують у

ситуаціях порівняння об’єктів чи їхніх характеристик до і після впливу

деякого фактора.

Тест Вілкоксона, так як і тест знаків, можна використати для перевірки

гіпотези про те чи різний середній прибуток чоловіків та жінок, які

отримали однакове виховання та освіту. Тому ці тести є замінниками t–

тестів для залежних змінних.

Виконаємо Statistics Æ Nonparametrics Æ Comparing two depending

samples Æ Wilcoxon matched pairs test (див. рис. 5.3). Результат зображено

на рисунку 5.5.

Рис. 5.5

Якщо значення p-level з тесту знаків та тесту Вілкоксона приблизно

однакові, то даним тестам можна довіряти, інакше потрібно провести

додаткове дослідження.

Аналогами t-тесту для незалежних змінних можуть слугувати Wald-

Wolfowitz runs test та Mann-Whitney test. Нагадаємо, що такі тести можна

використовувати не обов’язково для парних спостережень.

Нехай в нас є дані про сукупні прибутки сімей в регіонах:

South

North

4000

5000

8000

10000

9000

11000

14000

12000

15000

22000

Створимо в пакеті Statistica нову таблицю даних і заповнимо першу

змінну (Var1) спочатку даними з South, а потім даними з North. Наступну

змінну (Var2) заповнимо значеннями

“1” навпроти значень з South і

значеннями “2” напроти значень з North

(див. рис. 5.6). Змінна Var2 є

групувальною змінною. Перейдемо до підмодулю Comparing two

independent samples: Statistics Æ Nonparametrics Æ Comparing two

independent samples (groups) Æ ОK (див. рис. 5.2).

Рис. 5.6

В полях Code for Group1, Code for Group2 вкажемо значення 1 та 2

відповідно (див. рис. 5.7).

Натиснувши кнопку Wald-Wolfowitz runs test отримаємо результат,

який зображено на рисунку 5.8.

Після виконання тесту отримали p-level=0.89, тобто ймовірність

помилки при прийнятті гіпотези про те, що вибірки не з однієї і тієї ж

популяції (реалізації двох випадкових величин з різними розподілами),

дуже висока.

Аналогічно виконаємо Mann-Whitney U test

(див. рис. 5.7) і отримаємо

p-level=0,2 (див. рис. 5.9).

Рис. 5.7

Рис. 5. 8

Рис. 5.9

Оскільки результати різні, то потрібне додаткове дослідження.

Зауважимо, що тест Wald-Wolfowitz більш чутливий до природи розподілу.

Розглянемо як перевірити гіпотезу про те, що спостереження

відповідають певному типу розподілу. Відкриємо файл Accident.sta (див.

рис. 5.10). У ньому містяться дані про щомісячну кількість ДТП на певній

частині деякої транспортної магістралі за 1983 та 1985 роки. У 1984 році

була проведена реконструкція цієї магістралі з метою більшої безпеки

руху. Нас цікавить чи дійсно реконструкція була ефективною.

Рис. 5.10

Перевіримо гіпотезу про те, що обидві змінні мають однакові середні і

однаково розподілені, тобто реконструкція не була ефективною. Виконаємо

Statistics Æ Nonparametrics Æ Observed versus expected χ² Æ ОK (див. рис.

5.2). Як Observed frequencies оберемо Y_1985, а як Expected frequencies

оберемо Y_1983 (див. рис. 5.11). Натиснемо кнопку Summary.

Бачимо

(див. рис.

5.12), що кількість ДТП значно зменшилась і

ймовірність помилки р при відхиленні нульової гіпотези про однаковість

розподілів дуже мала. Отже, робимо висновок, що розподіли різні, тобто

заходи, що були вжиті між двома роками спостережень, мали певний

вплив.

Задача. Перевірити, чи симетрична монета. Підкинути монету 20 разів і

дані спостережень занести в першу змінну, а очікуваний результат 10, 10

занести в другу змінну та виконати тест.

Рис. 5.11

Рис. 5.12

Створимо новий файл даних з 10000 випадками (Cases) і заповнимо їх

згенерованими випадковими значеннями рівномірно розподіленими на

відрізку

[0,1]: Edit Æ Fill/Standardize Blocks Æ Fill Random Values.

Натиснемо Statistics Æ Distribution Fitting, виберемо рівномірний розподіл

(див. рис. 5.13) і натиснемо ОK. У вікні, що з’явиться (див. рис. 5.14) як

Variable обираємо створену змінну.

Рис. 5.13

Рис. 5.14

У закладці Parameters як Lower limit та Min. range Parameter задамо 0, а

як Upper limit та Max. range Parameter задамо 1 (див. рис. 5.15).

У закладці Options відмітимо Yes (continuous) у розділі Kolmogorov-

Smirnov test (див. рис. 5.16).

Рис. 5.15

Рис. 5.16

Натиснемо кнопку Summary. У табличці, що з’явилась (див. рис. 5.17),

вказана статистика для тестів Колмогорова-Смірнова та χ².

Рис. 5.17

Якщо тести Kolmogorov-Smirnov та χ² (Chi-Square) видають значення р,

які відмінні від 0 або n.s., то це означає, що ймовірність помилки при

відхиленні гіпотези про заданий розподіл велика і гіпотезу потрібно

прийняти.

В нашому прикладі гіпотеза про рівномірний розподіл приймається,

оскільки Kolmogorov-Smirnov: p =n.s.; Chi-Square: p = 0.42.

Натиснувши кнопку Plot of observed and expected distribution на

закладці Quick, можна графічно порівняти гістограму з щільністю обраного

розподілу (див. рис. 5.18).

Рис. 5.18

Заняття 6

Лінійна регресія

Створимо новий файл, в якому змінну VAR1 заповнимо послідовно

значеннями від 0 до 10, змінну VAR2 – випадковими значеннями від 0 до 1,

а змінну VAR3 задамо, як суму VAR1+ VAR2.

Виконаємо послідовність команд: Statistics Æ Basic Statistics/Tables Æ

Descriptive Statistics Æ Prob.&Scatterplots (див. рис. 6.1).

Рис. 6.1

Як Variables виберемо VAR1-VAR3, натиснемо кнопку 2D Scatterplot.

У першому списку змінних вкажемо VAR1, в другому

– VAR3 і

натиснемо кнопку ОK (див. рис. 6.2).

На графіку, що з’явився, зображено пряму лінійної регресійної моделі

для VAR3 через VAR1, а у верхній частині вікна бачимо рівняння лінійної

регресії (див. рис. 6.3).

Рис. 6.2

Рис. 6.3

Якщо у змінній VAR3 замінити одне із значень, наприклад на 70, і

побудувати графік знову, то побачимо, що рівняння регресії буде

враховувати дане значення і з графіка буде очевидно, що 70 є викидом

(див. рис. 6.4).

Натиснемо піктограму Brushing. У вікні, що з’явиться зробимо

активними Exclude та Box, виділимо прямокутником значення (див. рис.

6.5) і натиснемо кнопку Apply. Виділене значення зникне з графіка і

регресійна пряма змінить своє положення.

Для того, щоб значення викиду не виводилось у наступних графіках та

не враховувалось при обчисленні регресійної формули, у змінній VAR4

заповнимо всі значення одиницями, а те значення, що стоїть напроти

викиду – нулем (див. рис. 6.6).

Рис. 6.4

Рис. 6.5

Рис. 6.6

У вікні Descriptive Statistics натиснемо кнопку Weight (див. рис. 6.1).

Оберемо змінну VAR4, перемкнемо Status на On та натиснемо OK (див.

рис. 6.7). Тепер при аналізі викиди враховуватися не будуть.

Рис. 6.7

Нехай маємо таку таблицю з даними:

100

200

300

400

500

600

700

де Y – врожайність, X – добрива, Z – опади.

Потрібно знайти формулу багатофакторної лінійної регресії для Y:

Y=B

X+B Z,

де B

– невідомі коефіцієнти.

Виконаємо послідовність команд: Statistics Æ Multiple Regression, як

змінні оберемо Y – залежна, X і Z – незалежні (див. рис. 6.8). Натиснемо

OK. Отримуємо результат, який зображено на рис. 6.9.

Рис. 6.8

Рис. 6.9

Залишити відповідь Скасувати коментар

Вторинні форми туберкульозу легень

М’язові тканини

Фізіологія сенсорних систем

Анатомія серця: розташування і будова серця, анатомія камер серця. Велике і мале кола кровообігу. Будова стінки серця, кровопостачання серця. Перикард. Проекція серця на передню стінку грудної порожнини. Грудний відділ аорти: топографія, пристінкові та нутряні гілки. Система верхньої порожнистої вени.

Тубулоінтерстиціальний нефрит та амілоїдоз нирок

Чоловіча статева система. Жіноча статева система: Яєчник.

Приєднуйся до нас!

Підписатись на новини:

Наші соц мережі