Законы распределения случайных величин

 

Закон распределения непрерывной случайной величины. Плотность распределения вероятности

Для непрерывных случайных величин невозможно применить закон распределения в формах, приведенных выше, поскольку такая величина имеет бесчисленное («несчетное») множество возможных значений, сплошь заполняющих некоторый интервал. Поэтому составить таблицу, в которой были бы перечислены все ее возможные значения, или построить многоугольник распределения нельзя. Кроме того, вероятность какого-либо ее конкретного значения очень мала (близка к 0)*. Вместе с тем различные области (интервалы) возможных значений непрерывной случайной величины не равновероятны. Таким образом, и в данном случае действует некий закон распределения, хотя и не в прежнем смысле.

Эту вероятность обозначают Р(х1 < Х < х2), или   
Р(х1
£ Х £ х2). 

Малая вероятность dР того, что случайная величина Х примет какое-то значение из интервала (х, х + Dх), будет пропорциональна величине данного интервала Dх: dР ~ Dх, или, введя коэффициент пропорциональности f, который сам может зависеть от х, получим:

dР = f(х) × Dх = f(x) × dx

Введенная здесь функция f(х) называется плотностью распределения вероятностей случайной величины Х, или, короче, плотностью вероятности, плотностью распределения. Уравнение (13) – дифференциальное уравнение, решение которого дает вероятность попадания величины Х в интервал (х1, х2):

Р(х1 < Х < х2) = f(х) dх.

Графически вероятность Р(х1 < Х < х2) равна площади криволинейной трапеции, ограниченной осью абсцисс, кривой f(х)  и  прямыми  Х = х1   и   Х = х2 (рис.3).  Это  следует  из геометрического смысла определенного интеграла (15) Кривая f(х) при этом называется кривой распределения.

Из (15) следует, что если известна функция f(х), то, изменяя пределы интегрирования, можно найти вероятность для любых интересующих нас интервалов. Поэтому именно задание функции f(х) полностью определяет закон распределения для непрерывных случайных величин.

Для плотности вероятности f(х) должно выполняться условие нормировки в виде:

f(х) dх = 1,

если известно, что все значения Х лежат в интервале (а, b), или в виде:

f(х) dх = 1,                                   (17)

если границы интервала для значений Х точно неопределенны. Условия нормировки плотности вероятности (16) или (17) являются следствием того, что значения случайной величины Х достоверно лежат в пределах (а, b) или (-¥, +¥). Из (16) и (17) следует, что площадь фигуры, ограниченной кривой распределения и осью абсцисс, всегда равна 1.

Нормальный закон распределения случайных величин

Нормальный закон распределения (закон Гаусса) играет исключительно важную роль в теории вероятностей. Во-первых, это наиболее часто встречающийся на практике закон распределения непрерывных случайных величин. Во-вторых, он является предельным законом в том смысле, что к нему при определенных условиях приближаются другие законы распределения.

Нормальный закон распределения характеризуется следующей формулой для плотности вероятности:

,

где х  –  текущие значения случайной величины X; М(X) и s – ее математическое ожидание и стандартное отклонение. Из  видно, что если случайная величина распределена по нормальному закону, то достаточно знать только два числовых параметра: М(Х) и s, чтобы полностью знать закон ее распределения.

График функции  называется нормальной кривой распределения (кривой Гаусса). Он имеет симметричный вид относительно ординаты  х = М(Х). Максимальная плотность вероятности,  равная   » ,  соответствует математическому ожиданию М(Х) = ; по мере удаления от нее плотность вероятности f(х) падает и постепенно приближается к нулю .

Величина М(Х) называется также центром рассеяния. Среднеквадратичное отклонение s характеризует ширину кривой распределения.

При изменении значения М(Х) в  нормальная кривая не меняется по форме, но сдвигается вдоль оси абсцисс. С возрастанием s максимальная ордината кривой убывает, а сама кривая, становясь более пологой, растягивается вдоль оси абсцисс, при уменьшении s кривая вытягивается вверх, одновременно сжимаясь с боков. Вид кривой распределения при разных значениях s:(s3<s2<s1) показан на рис.6.

Естественно, что при любых значениях М(Х) и s площадь, ограниченная нормальной кривой и осью Х, остается равной 1 (условие нормировки):

f(х)   dх = 1,   или   f(х)   dх = 1.

Нормальное распределение симметрично, поэтому
М(Х) = Мо(Х) = Ме(Х).

Вероятность попадания значений случайной величины Х в интервал (x1,x2), т.е. Р (x1 < Х< x2),    равна:

Р(x< Х < x2) =  .

На практике часто приходиться вычислять вероятности попадания значений нормально распределенной случайной величины на участки, симметричные относительно М(Х). В частности, рассмотрим следующую, важную в прикладном отношении задачу. Отложим от М(Х) вправо и влево отрезки, равные s, 2s и 3s  и проанализируем результат вычисления вероятности попадания Х в соответствующие интервалы:

Р(М(Х)s <Х<М(Х) + s) = 0,6827 = 68,27 %.

Р(М(Х)2s <Х<М(Х) + 2s) = 0,9545 = 95,45 %.

Р(М(Х) – 3s <Х<М(Х) + 3s) = 0,9973 = 99,73 %.

Из  следует: практически достоверно, что значения нормально распределенной случайной величины Х с параметрами М(Х) и s лежат в интервале  М(Х) ± 3s. Иначе говоря, зная  М(Х) =    и s, можно указать интервал, в который с вероятностью Р = 99,73% попадают значения данной случайной величины. Такой способ оценки диапазона возможных значений Х известен как «правило трех сигм».

Пример. Известно, что для здорового человека рН крови является нормально распределенной величиной со средним значением (математическим ожиданием) 7,4 и стандартным отклонением 0,2. Определите диапазон значений этого параметра.

Решение: для ответа на этот вопрос воспользуемся “правилом трех сигм”. С вероятностью равной 99,73% можно утверждать, что диапазон значений рН для здорового человека составляет 6,8 – 8.

Предмет и задачи математической статистики. Генеральная и выборочная совокупность

Математические законы теории вероятностей – это математическое выражение реальных закономерностей, которым подчиняются массовые случайные явления. При этом каждое исследование случайных явлений, выполняемое методами теории вероятностей, прямо или косвенно опирается на экспериментальные данные, на результаты испытаний и наблюдений.

Разработка методов получения, описания и анализа экспериментальных данных, определенных в результате исследования массовых случайных явлений, составляет предмет специальной науки – математической статистики. Эти данные принято называть статистическими. Статистические данные часто можно рассматривать как совокупность экспериментальных результатов, которые представляют собой набор возможных значений случайных однородных величин (роста, массы тела, длительности пребывания больного на койке, содержания сахара в крови и т.д.).

Фундаментальными понятиями математической статистики являются генеральная совокупность и выборочная совокупность (выборка). Существуют разные подходы к пониманию смысла этих величин. Мы определяем их так. Генеральная совокупностьэто множество подлежащих статистическому изучению однородных объектов, которые характеризуются определенными качественными или количественными признаками. Например, конечная и реально существующая генеральная совокупность – конкретно выбранная популяция: все жители Беларуси в фиксированный момент времени или только все мужчины, или женщины, или дети. Следующий пример: бесконечная и реально существующая генеральная совокупность – множество действительных чисел, лежащих между 0 и 1.

Чтобы изучить генеральную совокупность по какому-либо из ее количественных признаков Х (острота зрения, показатели анализа крови и т.д.), нужно определить закон распределения данного признака и основные характеристики этого распределения, например, математическое ожидание и дисперсию. Для этого следовало бы изучить все ее объекты и затем обработать полученный массив данных методами теории вероятностей. Однако на практике провести сплошное обследование объектов генеральной совокупности часто физически невозможно и экономически невыгодно. Поэтому обычно исследуется только часть объектов, так называемая выборка.

Совокупность «n» объектов, отобранных из интересующей нас генеральной совокупности для конкретного статистического исследования, называется выборочной совокупностью или выборкой.

Исследование выборки дает некоторое приближенное, оценочное значение интересующего нас параметра, принимающего различные значения для разных выборок. Таким образом, постоянная величина – значение нужной характеристики для генеральной совокупности – заменяется значением случайной величины, полученным по результатам выборки на основании некоторого правила. Поэтому главная цель выборочного метода, основного в математической статистике, – по вычисленной характеристике выборки как можно точнее определить соответствующую характеристику генеральной совокупности. Это возможно лишь в том случае, когда отобранная для работы часть объектов репрезентативна целому, т.е. типична, обладает теми же основными чертами, что и все целое. Иначе говоря, выборка должна быть представительной, т.е. по возможности полнее «представлять» свою генеральную совокупность. Это одно из важнейших требований, предъявляемых к выборке, несоблюдение которого ведет к грубым ошибкам и обесценивает результаты исследования. Например, если при изучении заболеваемости населения республики (генеральная совокупность) ишемической болезнью сердца в качестве выборки будет взята группа студентов, то результаты окажутся ошибочны, поскольку свойства выборки не будут соответствовать свойствам генеральной совокупности, как и в случае, когда в качестве выборки будут взяты только пациенты кардиологического диспансера. Репрезентативность выборки обеспечивается ее достаточным объемом и определенными правилами ее формирования, которые в данном пособии не рассматриваются.

Из многочисленных задач, решаемых математической статистикой, выделим следующие.

1.   Определение статистических характеристик выборки (методы описательной статистики).

2.   Определение параметров генеральной совокупности по данным выборки: точечные оценки и доверительные интервалы для параметров распределения.

3.   Исследование статистической связи между двумя признаками выборочной совокупности (элементы корреляционного анализа).

4.   Определение значимости различия между двумя выборочными совокупностями (введение в теорию статистических гипотез).

Статистическое распределение выборки

Итак, мы хотим знать распределение признака Х в генеральной совокупности, но реально исследуем лишь некоторую выборку из нее.

В серии экспериментов, проводимых с выборкой, величина Х принимает определенные значения. Эти значения записанные для всех элементов выборки в том порядке, в котором они были получены в опытах, представляет собой простой статистический ряд. Каждое значение Х в полученном числовом ряду называют вариантой. Полученные данные и подлежат статистической обработке, статистическому анализу.

Первый шаг при обработке этого материала – наведение в нем определенного порядка, ведущего к получению статистического распределения выборки. Здесь возможны два основных способа: создание вариационного ряда или интервального ряда.

Рассмотрим вариационный ряд. Пусть некоторая выборка исследуется по количественному признаку Х, который представляет собой дискретную случайную величину. В имеющемся у нас простом статистическом ряду варианта х1 встречается (повторяется) m1 раз, х2m2 раза, … хкmк раз, при этом, т.е. равна объему выборки. Далее по данным простого статистического ряда строится статистическое распределение (в медицинской литературе – вариационный ряд), которое удобно представить в виде таблицы, включающей в себя:

1)       различные по значению варианты xi, расположенные в определенной, ранжированной *, заранее выбранной последовательности (обычно в порядке возрастания);

2)        mi – частоты вариант, т.е. числа наблюдений (повторений) варианты хi в простом статистическом ряду;

3)        pi*= mi /n – относительные частоты вариант, т.е. отношения частот mi к объему выборки n; они являются выборочными (эмпирическими) оценками вероятностей появления значений хi.

Каждая относительная частота указывает долю общего объема выборки, приходящуюся на данное значение варианты хi.

Итак, для дискретной величины Х вариационный рядстатистическое распределение выборки – имеет следующий вид .

Напомним, что под распределением дискретной случайной величины в теории вероятностей понимается соответствие между возможными значениями случайной величины и их вероятностями; в математической статистике – соответствие между наблюдаемыми вариантами хi  и их частотами или относительными частотами.

 Анализируемый показатель Х – срок лечения больного при некотором заболевании. Вариационный ряд – распределение больных по срокам лечения (объем выборки n = 26 больных) – имеет вид:  

Полезность подобного представления данных очевидна по следующей причине: мы получаем практически важный результат – возможность оценить более и менее вероятные значения признака.

Интервальный ряд удобен тогда, когда количественный признак Х, характеризующий выборку, непрерывен, т.е. может принимать любые значения в некотором интервале. В этом случае статистическое распределение выборки (интервальный ряд) строится следующим образом. Область изменения признака (хмаксхмин) разбивают на несколько интервалов обычно равной ширины. Число интервалов k, как правило, не менее 5 и не более 25 и приближенно определяется следующими эмпирическими формулами:

k = , или k » 1 + 3,32 lg n,

где n – объем выборки.

Ширина интервалов одинакова и равна:

Δx= h = .

Затем вычисляют границы интервалов: хмин =х0,  х10 + h,  х21 + h, х32 + h,…., хмакс = хk. Поскольку некоторые варианты могут являться границей двух соседних интервалов, то, во избежание недоразумений, придерживаются следующего правила: к интервалу (a,b) относят варианты, удовлетворяющие неравенству    a £ х < b.

Затем для каждого интервала подсчитывают частоты mi и (или) относительные частоты рi*=mi/n попадания вариант в данный интервал. Нередко используют также плотность относительной частоты:

= .

Данную величину можно считать выборочной (эмпирической) оценкой плотности вероятности.

Рассмотренное выборочное распределение непрерывной случайной величины Х – интервальный ряд – обычно представляется в виде таблицы, имеющей, в частности, следующий вид (табл. 3).

 Анализируемый показатель Х – массы тела новорожденного. Определение массы тела 100 новорожденных показало, что минимальная масса составляет 2,7 кг, максимальная – 4,4 кг. Интервал (2,7 – 4,4) кг разбиваем на 10 равных интервалов (k = =10) шириной h =  = 0,17 кг и строим интервальный ряд

k=10, mi =4+8+12+16+21+15+11+7+4+2=100=n (объем выборки),  = 0,04+0,08+0,12+0,16+0,21+0,15+0,11+0,07+0,04+0,02 = 1.

Обобщим изложенный выше материал.

1.                  Если выборка исследуется по количественному признаку Х, который представляет собой дискретную случайную величину, то статистическим распределением выборки является вариационным статистический ряд – полученные значения признака, записанные в упорядоченном виде с указанием их частот и относительных частот.

2.                  Если выборка исследуется по количественному признаку Х, который представляет собой непрерывную случайную величину, то статистическим распределением выборки является интервальный статистический ряд. Он включает в себя интервалы вариант, частоты попадания вариант в эти интервалы, относительные частоты, при необходимости – плотности относительных частот для этих интервалов.

Графическое представление статистических распределений выборок

Для получения наглядного представления о распределении выборок строят соответствующие графики, в частности, полигон частот или гистограмму распределения.

Вариационный ряд часто изображают графически в виде полигона частот или полигона относительных частот.

Для построения полигона частот на оси абсцисс откладывают варианты хi, а на оси ординат – соответствующие им частоты mi. Точки  (хi; mi)  соединяют отрезками прямых. Полигоном частот называют ломаную линию, отрезки которой соединяют точки (х1;m1);
(х2;
m2)…..(хк; mк).

Полигоном относительных частот называют ломаную линию, отрезки которой соединяют точки (х1; ); (х2; ); (хк; ). На рис. 8 показан полигон относительных частот, построенный по данным .

Для непрерывной случайной величины обычно строят гистограммы частот или относительных частот.

Гистограммой частот называют диаграмму, состоящую из вертикальных прямоугольников, основаниями которых являются интервалы длиной D х =h, а высоты равны отношению  (плотности частоты). Для построения гистограммы частот на оси абсцисс откладывают интервалы значений исследуемого показателя (интервалы вариант) и на них строят прямоугольники высотой . Площадь i -го   прямоугольника равна Dх ×  = mi, т.е. равна количеству вариант в i-м интервале. Следовательно, площадь гистограммы частот равна сумме частот для всех интервалов, иначе говоря, равна объему выборки.

Гистограмма относительных частот отличается от предыдущей гистограммы тем, что на ней высоты прямоугольников равны отношению ,т.е. равны плотности относительной частоты (эмпирической плотности вероятности). В этом случае площадь i-го прямоугольника равна Dх × = рi* относительной частоте вариант, попавших в i-ый интервал. Напомним, что рi* – оценка вероятности попадания значений Х в выбранный интервал. Площадь гистограммы относительных частот равна сумме относительных частот для всех интервалов, т.е. равна единице.

Рис. 9

 
Гистограмма относительных частот, построенная по данным табл.4, приведена на рис. 9. Из этого рисунка следует, что для используемой выборки интервал наиболее вероятных масс тела новорожденных (3,38 - 3,55) кг.

Необходимо отметить, что гистограммой называют и серию прямоугольников, высотами которых являются непосредственно частоты mi для соответствующих интервалов, или относительные частоты (в нормированной гистограмме), а также относительные частоты в процентах (процентная гистограмма). Два последние варианта позволяют сравнивать гистограммы, построенные на одних и тех же интервалах, но для различных выборок из той же генеральной совокупности.

Важно, что гистограммы можно использовать для оценки закона распределения признака в генеральной совокупности (в популяции). Соединяя средние точки верхних оснований прямоугольников гистограммы относительных частот плавной линией, можно по данным выборки получить примерный вид графика зависимости плотности вероятности f  от х.  Такая зависимость отражена на рис. 9. Можно предположить, что анализируемый показатель (масса тела новорожденного) в генеральной совокупности распределен по нормальному закону, т.е. нормальный закон является вероятностной моделью для данного признака популяции.

Методы описательной статистики

Это методы описания выборок, исследуемых по количественному признаку Х, с помощью их различных числовых характеристик.

Преимущество данных методов заключается в следующем. Несколько простых и достаточно информативных статистических показателей, если они известны, во-первых, избавляют нас от просмотра сотен, а порой и тысяч значений вариант, а, во-вторых, позволяют получить более или менее точную оценку характеристик распределения признака в генеральной совокупности.

Описывающие выборку показатели разбиваются на несколько групп; в своем большинстве они имеют аналоги в виде числовых характеристик случайных величин в теории вероятностей.

Показатели положения описывают положение вариант выборки на числовой оси. Сюда относят:

          а)  минимальную и максимальную варианту;

          б) выборочное среднее арифметическое значение (выборочное среднее), выборочные моду и медиану. Они определяют «центральную» точку распределения выборки: наиболее значимую для поставленной задачи варианту.

          Выборочным средним называется величина

в = ,

где хi i-ая варианта, полученная в опыте с i-ым элементом выборки; n – объем выборки.

Так, согласно данным табл.4 среднее выборочное значение массы тела новорожденных – в = 3,47 кг и относится к центральному интервалу (интервалу наиболее вероятных значений).

Выборочная мода Мов – варианта, которая чаще всего встречается в исследуемой выборке, т.е. имеет наибольшую частоту.

Пример 1приведено предполагаемое распределение по возрасту заболевших дифтерией (на 10 тыс. населения соответствующего возраста), которое явно не соответствует нормальному. Очевидно, что знание среднего возраста заболевших (в » 7,8 года) в этом случае менее важно, чем знание возраста, в котором чаще всего возникает заболевание и который представляет собой моду (Мов » 4 года). Именно этот показатель указывает где должны быть сосредоточены главные профилактические меры: в школах или дошкольных учреждениях.

Выборочная медиана Мев – варианта, которая делит ранжированный статистический ряд (см. сноску на стр. 38) на две равные части по числу попадающих в них вариант.

Пример 2. Дан статистический ряд: 1; 2; 3; 3; 5; 6; 6; 6; 7; 8; 9; n = 11. Варианта, разделяющая этот ряд на две равные по количеству вариант части, занимает в ряду 6 место и равна 6, т.е. Мев = 6.

Показатели разброса описывают степень разброса данных относительно своего центра. Здесь обычно используются:

а) стандартное отклонение S и выборочная дисперсия Dв = S2*,  характеризующие рассеяние вариант вокруг их среднего выборочного значения     в:

 ;

б) размах выборки – разность между максимальной и минимальной вариантами:   хмаксхмин;

в) коэффициент вариации:

n =  × 100%,                        

который применяется для сравнения величин рассеяния двух вариационных рядов: тот из них имеет большее рассеяние, у которого коэффициент вариации больше.

К показателям, описывающим закон распределения, прежде всего, относят гистограммы и полигон частот. О них шла речь в предыдущем разделе.

Оценка параметров генеральной совокупности по ее выборке. Точечная и интервальная оценки

Напомним, что главная цель любого статистического исследования – установить закон распределения и получить значения характеристик изучаемого признака генеральной совокупности путем анализа выборки. Иначе говоря, надо определить генеральную среднюю г = М(Х), генеральные дисперсию Dг(Х), среднее квадратическое отклонение sг, генеральную моду Мог, медиану Мег и другие характеристики генеральной совокупности путем статистического исследования выборки.

Точечная оценка характеристик генеральной совокупности – наиболее простой, но не очень достоверный способ. При данном способе в качестве оценок характеристик генеральной совокупности используются соответствующие числовые характеристики выборки. Например, в качестве генерального среднего используется выборочное среднее, в качестве генеральной дисперсии – выборочная дисперсия и т.д. Такие оценки и называются точечными. Их недостаток состоит в том, что не ясно, насколько сильно они отличаются от истинных значений параметров генеральной совокупности. Ошибка может быть особенно большой в случае малых выборок.

Интервальная оценка параметров генеральной совокупности – более достоверна. В этом случае определяется интервал, в который с заданной вероятностью попадает истинное значение исследуемого признака.

 



 

* В математической статистике ранжированным рядом часто называется последовательность всех полученных в эксперименте вариант, записанных в порядке возрастания.

* Точнее  S2  называется “исправленная выборочная дисперсия”