Кубанский Государственный Технологический

June 3, 2024
0
0
Зміст

 

Дисперсионный анализ

Модели факторного эксперимента

 

          Техника дисперсионного анализа полезна для ряда статистических задач, связанных с исследованием влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик). Метод применим и в случае количественных факторов, если их значения могут быть сгруппированы в классы или блоки, однако такие данные допускают и более детальное исследование зависимости отклика от факторов, выполняемое методами регрессионного анализа.

          Ковариационный анализ основан на допущении о нормальном распределении исходных данных.

          Факторный эксперимент, предполагающий применение дисперсионного параметрического анализа, состоит в измерении значений некоторой количественной переменной-отклика при определенных значениях или уровнях одного или нескольких количественных или качественных факторов.

Фиксированные и случайные эффекты

          Наиболее разработаны и распространены схемы организации однофакторного и двухфакторного эксперимента с использованием следующих двух моделей:

          а) модель с фиксированными эффектами (модель 1): экспериментатор намеренно устанавливает в эксперименте факторы на определенных уровнях с целью проверки нулевой гипотезы о том, что средние значения отклика для выбранных уровней фактора не различаются между собой;

          б) модель со случайными эффектами (модель 2): экспериментатор случайно выбирает несколько уровней значения фактора с целью проверки нулевой гипотезы о том, что дисперсия популяции средних значений отклика, вычисленных для различных уровней фактора, не отлична от нуля.

 

Повторяемый и неповторяемый эксперимент

 

          Для каждого сочетания значений факторов может быть измерено одно значение отклика (неповторяемый эксперимент) или же несколько значений отклика (повторяемый эксперимент).

          В случае однофакторного эксперимента, проводимого всегда по схеме с повторными измерениями, а также в случае двухфакторного неповторяемого эксперимента, процедуры и результаты анализа для моделей 1 и 2 совпадают (следует только помнить о различии в проверяемых гипотезах).

          В случае двухфакторного эксперимента с повторными наблюдениями имеются еще два дополнительных варианта его планирования:

          в) модель с рандомизированными блоками (модель 1+2) – в этом случае первый фактор А отвечает модели 1, а второй фактор В отвечает модели 2;

          г) модель с группировкой или иерархическая модель, если каждый уровень фактора В встречается в паре не более чем с одним уровнем фактора А.

          Часто результаты одного и того же эксперимента можно трактовать в терминах нескольких моделей. При этом следует иметь в виду, что модель 2 по сравнению с моделью 1 будет давать результаты с более высоким уровнем значимости нулевых гипотез.

 

 Взаимодействие факторов

 

          Отметим также, что в случае моделей 1, 2 и 1+2 двухфакторного повторного эксперимента, кроме нулевых гипотез по каждому фактору отдельно, можно проверить нулевую гипотезу об отсутствии взаимодействия факторов: наблюдается ли изменение эффекта фактора B в зависимости от уровня фактора А. При этом, если эффект взаимодействия не обнаружен, то можно провести дополнительный анализ уже без учета взаимодействия А и В. Такой дополнительный анализ, как правило, дает результаты со сравнительно более низким уровнем значимости нулевых гипотез.

 

Однофакторный дисперсионный анализ

Назначение.

          С помощью данного метода в зависимости от типа модели по исследуемому фактору (с фиксированными или же со случайными эффектами) на основе параметрического критерия Фишера проверяется одна из двух нулевых гипотез:

·     средние значения для групп откликов, измеренных при различных значениях фактора, не имеют существенных различий между собой   (модель 1);

·     дисперсия средних значений для групп откликов, измеренных при различных значениях фактора, не отлична от нуля (модель 2).

          В случае наличия факторного эффекта нередко представляет интерес более детальный анализ на наличие различий между конкретными уровнями фактора или группами фактора. Эту задачу решает метод парных сравнений Шеффе (Sheffe).

 

Исходные данные.

          Исходные данные представляются в виде псевдоматрицы (то есть столбцы не обязаны быть одинаковой длинны), в которой переменные отвечают различным уровням исследуемого фактора и каждая переменная содержит отклики, измененные при соответствующем значении фактора.

 

Диалог и результаты.

          После запуска процедуры однофакторного анализа в последующем меню необходимо выбрать параметрический метод.

Выдача включает стандартную дисперсионную таблицу со столбцами: сумма квадратов, число степеней свободы, средняя сумма квадратов, сила влияния фактора (по Снедекору), а строки содержат межгрупповые, внутригрупповые и общие значения (см. формулы).

Далее вычисляется статистика Фишера F с уровнем значимости P. Если P>0.05, нулевая гипотеза об отсутствии влияния фактора может быть принята.

В случае наличия факторного эффекта выдается таблица парных сравнений Шеффе, в которой для всех пар уровней исследуемого фактора приведены следующие параметры (по столбцам): разность средних значений, размах доверительного интервала разности, уровень значимости нулевой гипотезы об отсутствии различий между средними значениями.

Далее можно продолжить анализ Шеффе уже по групповому сравнению факторного эффекта для двух выбранных групп откликов. Для этого в последующем бланке необходимо сформировать две группы переменных из электронной таблицы. Такой бланк будет повторяться до его отмены.

 Формулы.

          Дисперсионная таблица:

Источник

Сумма

Квадратов

Степени

свободы

Средн.

квадр.

Сила

Влияния

Фактор 1

SA

k-1

SA/(k-1)

Остаточная

SE

N-k

SE/(N-k)

 

Общее

ST

N-1

 

 

 

где:

                 

                 

– число измерений в i-ой группе; k – число уровней фактора;

  ,  F – статистика.

Доверительный интервал сравнения Шеффе =

где: – размер j-ой группы.

 

 

               Анализ данных с использованием  таблиц EXCEL.

 

 Для возможности анаализа данных надо выбрать в меню СЕРВИС пункт

 НАДСТРОЙКИ…  и  подключить пакет Анализа.

 Теперь в меню СЕРВИС появится  пункт АНАЛИЗ ДАННЫХ , где вы можете найти разделы Однофакторного и Многофакторного  дисперсионного анализа.

Двухфакторный дисперсионный анализ.

 

 Назначение.

          Посредством данного метода в зависимости от типа модели по каждому фактору (с фиксированными или же со случайными эффектами) с помощью параметрического критерия Фишера проверяется одна из двух нулевых гипотез:

·     средние значения для групп откликов, измеренных при различных значениях фактора, не имеют существенных различий между собой   (модель 1);

·     дисперсия средних значений для групп откликов, измеренных при различных значениях фактора, не отлична от нуля (модель 2).

 

 Разновидности метода.

          Имеется две разновидности метода в зависимости от того, производились ли повторные измерения при каждом сочетании двух исследуемых факторов или нет:

 Нет повторных измерений. При эксперименте без повторных измерений исходные данные должны представлять собой матрицу размером m×n, в которой столбцы отвечают различным уровням первого фактора j=1,…,m, строки отвечают различным уровням второго фактора i=1,…,n, а каждая ячейка содержит отклик измеренный при соответствующем сочетании уровней исследуемых факторов.

Выдача: выдача включает дисперсионную таблицу со столбцами: сумма квадратов, число степеней свободы, средняя сумма квадратов, сила влияния фактора (по Снедекору), а строки содержат значения для первого и второго факторов, а так же остаточные и общие параметры.

Далее для каждого фактора вычисляется статистика Фишера F с уровнем значимости P. Если P>0.05, нулевая гипотеза об отсутствии влияния фактора может быть принята.

Есть повторные измерения. При эксперименте с повторными измерениями исходные данные должны представлять собой псевдоматрицу (не обязательно одинаковой длинны столбцов), в которой переменные (i=1,…, m×n) отвечают различным уровням исследуемых факторов в порядке изменения значений первого фактора: все уровни первого фактора для первого уровня второго фактора, все уровни первого фактора для второго уровня второго фактора и т.д., а каждая переменная содержит откликов (>1), измеренных при данном сочетании значений факторов.

Поскольку такое представление данных может отвечать различным сочетаниям числа градаций факторов, то в поле меню необходимо указать число уровней первого фактора, после чего нажать кнопку исследуемой модели:

0 = с фиксированными эффектами;

1 = со случайными эффектами;

2 = с рандомизованными блоками;

3 = с группировкой.

Выдача: выдача включает дисперсионную таблицу со столбцами: сумма квадратов, число степеней свободы, средняя сумма квадратов, сила влияния фактора (по Снедекору), а строки содержат значения для первого и для второго факторов, для эффекта межфакторного взаимодействия, а так же остаточные и общие параметры.

Далее для каждого фактора вычисляется статистика Фишера F с уровнем значимости P. Если P>0.05, нулевая гипотеза об отсутствии влияния фактора может быть принята.

Если эффект взаимодействия не обнаружен, то проводится дополнительный анализ по факторам A и B, но без учета их взаимодействия. Такой дополнительный анализ, как правило, дает более низкий уровень значимости нулевых гипотез. Полученными результатами рекомендуется пользоваться, если уровень значимости гипотезы отсутствия взаимодействия факторов достаточно велик (P>0.05).

 

 Формулы.

          Бесповторный эксперимент. В случае двухфакторного эксперимента без повторных измерений дисперсионная таблица имеет вид:

Источник

Сумма

Квадратов

Степени

свободы

Средн.

квадр.

Сила

влияния

Фактор 1

m-1

A=SA/(m-1)

Фактор 2

n-1

B=SB/(n-1)

Остаточная

(m-1)×(n-1)

 

Общее

m+n-1

 

 

где:

                          

  F – статистика.

          Повторы и фиксированные эффекты. В случае двухфакторного эксперимента с повторными измерениями и с фиксированными эффектами дисперсионная таблица имеет вид:

 

 

 

 

Источник

Сумма

Квадратов

Степени

свободы

Средн.

квадр.

Сила

влияния

Фактор 1

SA

m-1

A=SA/(m-1)

Фактор 2

SB

n-1

B=SB/(n-1)

Мефактор.

(m-1)×(n-1)

Остаточная

N-m×n

 

Общее

N-1

 

 

где:

                 

        

       

 – сумма откликов для i – ой группы, i = 1,2,…,n×m; N – общее число откликов;

() – сумма средних значений откликов для a – уровня (b – уровня) фактора 1 (фактора 2);

                   

F – статистики с n-1, n×m×(k-1); m-1, n×m×(k-1); (n-1)×(m-1), n×m×(k-1) степенями свободы, k=N/ .

 

 Примечания.

1.   Отличие модели со случайными эффектами состоит в замене второго числа степеней свободы в ,  – статистиках (n-1)×(m-1);

2.   Отличие модели с рандомизованными блоками состоит в замене второго числа степеней свободы в  – статистике (n-1)×(m-1);

3.   Отличие модели с группировкой – вычисляются два F – значения: =A/B с n-1, n×m×(k-1) степенями свободы; =B/E с n×(m-1), n×m×(k-1) степенями свободы, вычисление межфакторного взаимодействия не производится;

4.   В случае незначительного межфакторного взаимодействия при повторных вычислениях ,  используется E=E+AB с (n-1)×(m-1)+Nn×m степенями свободы.

 

Многофакторный дисперсионный анализ.

 

Назначение. Данная процедура расширяет возможности однофакторного и двухфакторного анализа на большее число (m>2) факторов. Процедура производит проверку гипотез об отсутствии влияния каждого фактора на отклик и не учитывает эффектов взаимодействия факторов второго и большего порядков. Однако она позволяет выявлять факторные эффекты даже в том случае, когда произведены измерения не при всех сочетаниях значений факторов, то есть в случае неполного факторного планирования.

 

Исходные данные. Исходные данные представляют собой матрицу размером (m+1)*n (n – число измерений), в которой в качестве первых m переменных содержатся градаций m факторов, а m+1-я переменная содержит значение отклика, измеренного при указанных градациях фактора. Каждый фактор должен иметь не менее двух градаций, значение которых нумеруются целыми числами, начиная с 1. Для каждого фактора должны быть произведены измерения по крайней мере при двух его уровнях, при этом допускаются повторные измерения при каждом сочетании значений факторов. Общее число измерений должно быть больше числа факторов.

Результаты. На экран выдаётся стандартная таблица дисперсионного анализа и результаты проверки каждой гипотезы.

 

Формулы и алгоритмы.

Исходная модель представляется в виде :

yij…k=m+ai+bj+…ck+eij…k

где :

          yijk – отклики;

          m – общее среднее ;

          ai – средний эффект фактора a на уровне i=1,2,…I;

          bi – средний эффект фактора a на уровне j=1,2,…J;

          ci – средний эффект фактора c на уровне k=1,2,…K;

eijk – ошибки.

 

Исходные данные отображаются в пространство I-1+J-1+…+K-1 независимых переменных со значениями 0,1,-1 с использованием дополнительных условий вида:

                             aj=-a1a2-…-aI-1.

Анализ производится методом множественной линейной регрессии. Остаточная сумма квадратов (ОСК) определяется ОСК полной регрессии. Факторные СК для каждой нулевой гипотезы вида a1=a2=…aI=0 определяется ОСК регрессии в усечённом пространстве после удаления переменных a1,a2,…,aI-1.

 

Пример.

Данные: В качестве примера рассмотрим данные двухфакторного эксперимента с повторными измерениями, где фактор 1 имеет три градации, а фактор 2 имеет две градации:

 

 

Фактор 2

Фактор 1

 

1

2

3

1

 

 

17.5

16.2

13.2

 

12.8

10.4

9.9

2

10.1

8.6

11.3

5.4

3.7

10.3

 

В этом случае матрица исходных данных имеет следующий вид:

 

F1

F2

Y

1

1

17.5

1

1

16.2

2

1

13.2

3

1

12.8

3

1

10.4

3

1

9.9

1

2

10.1

1

2

8.6

1

2

11.3

2

2

5.4

2

2

3.7

3

2

10.3

 

Диалог:     выберите метод или нажмите его ключ >> н

                   Нажмите Enter=продолжить или f2=печать экрана >> Enter

 

Выдача: Файл: mav      Переменных=3     Измерений=36

МНОГОФАКОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ.

 

Источник   Сум.квадр     Ст.своб      Ср.квадр    Сила влияния

Фактор 1           92,1                2                46,1             0,165

 

F(фактор 1)=6,07, Значимость=0,0247, степ.своб = 2,8

   Гипотеза 1: <Есть влияние фактора на отклик>

 

Фактор 2      117        1      117    0,663

 

F(фактор 2)=17,7,          Значимость=0,     степ.своб = 8

   Гипотеза 1: <Есть влияние фактора на отклик>

 

  Остат.     36,6        8     4,57

 

Для сравнения приведём результаты анализа тех же самых данных по методу двухфакторного анализа.

 

Анализ факторных эффектов (дисперсионный анализ)

 

Выдача: Файл: mav1  Переменных=6   Измерений=12

2-ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ.

Факторный план: повторяемый, с фиксированными эффектами

 

Источник

Сумма квадр

Ст. своб

Ср. квадр

Сила явления

Факт.1

40.78

2

20.39

0.4349

Факт.2

85.23

1

85.23

0.4843

Межфак

33.42

2

16.71

0.4061

Остат.

10.76

6

1.793

 

Общая

170.2

11

15.47

 

 

F(фактор1)=11.37,         Значимость=0.0097,      степ.своб=2,  6

F(фактор2)=47.54,         Значимость=0,              степ.своб=6

F(межфак)=9.32,            Значимость=0.0149,      степ.своб=2,   6

 

Ковариационный анализ

 

 Назначение

 

Основной задачей ковариационного анализа является проверка влияния качественного или количественного фактора на отклик. Однако здесь при каждом измерении вместе со значением отклика регистрируются значения одной или нескольких сопутствующих переменных (количественных со-факторов), которые также могут оказывать влияние на отклик, но это влияние желательно исключить при проверке основного факторного эффекта, то есть требуется     рафинировать основной эффект от влияния сопутствующих переменных.

Ковариационный анализ используется для вычисления среднего произведения отклонений точек данных от относительных средних. Ковариация является мерой связи между двумя диапазонами данных.

Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).

Ковариация – это среднее произведений отклонений для каждой пары точек данных. Ковариация используется для определения связи между двумя множествами данных.

 

Исходные данные

 

Исходные данные представляют собой    матрицу из m переменных по n измерений:          первые m-2 переменных являются сопутствующими переменными; m-1-я переменная является откликом в смысле дисперсионного анализа; каждое значение m-ой переменной представляет номер уровня фактора (целое число), при котором было произведено данное измерение. Матрица должна быть упорядочена по возрастанию значений m-ой переменной.

 

 Результаты

 

Сначала производится проверка гипотез о равенстве средних значений сопутствующих переменных и отклика (гомогенность) для групп, соответствующих различным уровням фактора. Нулевая гипотеза гомогенности сопутствующих переменных говорит о сбалансированности проведенного эксперимента, когда их значения для разных групп примерно одинаково распределены. Принятие нулевой гипотезы гомогенности переменной отклика может быть следствием отсутствия факторного эффекта.

Далее производится множественный линейный регрессионный анализ первых m-1 переменных.

В завершении процедуры производится однофакторный дисперсионный      анализ m-той переменной, значения которой скорректированы вычитанием вычисленных регрессионных значений.

 

 Формулы и алгоритмы

 

Исходная модель представляется в виде:

yij = m + ai + b Ч (xijmx) + c Ч (yijmy) + ј + eij

где:

yij – отклики; m – общее среднее;

ai – средний эффект фактора на уровне i = 1, 2, ј, I;

xij , yij , ј – сопутствующие переменные со средними значениями mx, my, ј; eij – ошибки.

          Значения каждой сопутствующей переменной модифицируются вычитанием среднего значения. По модифицированной матрице производится многомерный линейный регрессионный анализ. Из каждого отклика вычитается соответствующее регрессионное значение и по полученным данным проводится однофакторный дисперсионный анализ.

Ковариация определяется следующим образом:

,

где:

          X, Y – первый и второй массивы данных; n – количество испытаний;

          xi – сопутствующие переменные со средними значениями mx;

          yi – отклики со средними значениями my.

          Если факторов больше одного, то находятся ковариации для каждой пары фактор-отклик, составляется матрица ковариаций, и по ней определяется влияние того или иного фактора на отклик.

 

Использование Excel.

 

          Алгоритм вычисления коэффициента ковариации:

1) Поставьте курсор на свободную ячейку;

2) В меню “Вставка” выберите пункт “Функция¼”;

3) В диалоговом окне “Мастер функций (шаг 1 из 2)” в окне “Категория” выберите пункт “Статистические”, а в окне “Функция” – пункт “КОВАР”;

4) В строке “Массив1” введите 1-ый диапазон данных (например, А1:А40), а в строке “Массив2” введите 2-ый диапазон данных и нажмите “OK”.

Алгоритм построения графика:

1) Поставьте курсор на свободную ячейку;

2) В меню “Вставка” выберите пункт “Диаграмма¼”;

3) В диалоговом окне “Мастер диаграмм (шаг 1 из 4): тип диаграммы” во вкладке “Стандартные” в окне “Тип” выберите пункт “График”, а в окне “Вид” – 1-ый график и нажмите кнопку “Далее”;

4) Выделите курсором область данных и нажмите кнопку “Готово”.

 

Leave a Reply

Your email address will not be published. Required fields are marked *

Приєднуйся до нас!
Підписатись на новини:
Наші соц мережі