В математике величина – это общее название различных количественных характеристик предметов и явлений. Длина, площадь, температура, давление и т.д. – примеры разных величин.
Величина, которая принимает различные числовые значения под влиянием случайных обстоятельств, называется случайной величиной. Примеры случайных величин: число больных на приеме у врача; точные размеры внутренних органов людей и т.д.
Различают дискретные и непрерывные случайные величины.
Случайная величина называется дискретной, если она принимает только определенные отделенные друг от друга значения, которые можно установить и перечислить.
Примерами дискретной случайной величиной являются:
– число студентов в аудитории – может быть только целым положительным числом: 0,1,2,3,4….. 20…..;
– цифра, которая появляется на верхней грани при бросании игральной кости – может принимать лишь целые значения от 1 до 6;
относительная частота попадания в цель при 10 выстрелах – ее значения: 0; 0,1; 0,2; 0,3 …1
– число событий, происходящих за одинаковые промежутки времени: частота пульса, число вызовов скорой помощи за час, количество операций в месяц с летальным исходом и т.д.
Случайная величина называется непрерывной, если она может принимать любые значения внутри определенного интервала, который иногда имеет резко выраженные границы, а иногда – нет*. К непрерывным случайным величинам относятся, например, масса тела и рост взрослых людей, масса тела и объем мозга, количественное содержание ферментов у здоровых людей, размеры форменных элементов крови, рН крови и т.п.
Понятие случайной величины играет определяющую роль в современной теории вероятностей, разработавшей специальные приемы перехода от случайных событий к случайным величинам.
Если случайная величина зависит от времени, то можно говорить о случайном процессе.
Закон распределения дискретной случайной величины
Чтобы дать полную характеристику дискретной случайной величины необходимо указать все ее возможные значения и их вероятности.
Соответствие между возможными значениями дискретной случайной величины и их вероятностями называется законом распределения этой величины.
Обозначим возможные значения случайной величины Х через хi, а соответствующие им вероятности – через рi *. Тогда закон распределения дискретной случайной величины можно задать тремя способами: в виде таблицы, графика или формулы.
В таблице, которая называется рядом распределения, перечисляются все возможные значения дискретной случайной величины Х и соответствующие этим значениям вероятности Р(Х):
Х |
х 1 |
х2 |
….. |
xi |
….. |
xn |
|
|||||||
|
P(X) |
p1 |
p2 |
….. |
pi |
….. |
pn |
|||||||
При этом сумма всех вероятностей рi должна быть равна единице (условие нормировки):
рi
= p1 + p2 + ... + pn = 1.
Графически закон представляется ломаной линией, которую принято называть многоугольником распределения. Здесь по горизонтальной оси откладывают все возможные значения случайной величины хi,, а по вертикальной оси – соответствующие им вероятности рi
Аналитически закон выражается формулой. Например, если вероятность попадания в цель при одном выстреле равна р, то вероятность поражения цели 1 раз при n выстрелах дается формулой Р(n) = n qn-1× p, где q = 1 – р – вероятность промаха при одном выстреле.
Закон распределения непрерывной случайной величины. Плотность распределения вероятности
Для непрерывных случайных величин невозможно применить закон распределения в формах, приведенных выше, поскольку такая величина имеет бесчисленное («несчетное») множество возможных значений, сплошь заполняющих некоторый интервал. Поэтому составить таблицу, в которой были бы перечислены все ее возможные значения, или построить многоугольник распределения нельзя. Кроме того, вероятность какого-либо ее конкретного значения очень мала (близка к 0)*. Вместе с тем различные области (интервалы) возможных значений непрерывной случайной величины не равновероятны. Таким образом, и в данном случае действует некий закон распределения, хотя и не в прежнем смысле.
Рассмотрим непрерывную случайную величину Х, возможные значения которой сплошь заполняют некий интервал (а, b)**. Закон распределения вероятностей такой величины должен позволить найти вероятность попадания ее значения в любой заданный интервал (х1, х2), лежащий внутри (а,b),
Эту вероятность обозначают Р(х1
< Х < х2), или
Р(х1 £ Х £ х2).
Рассмотрим сначала очень малый интервал значений Х – от х до (х + Dх); см. рис.2. Малая вероятность dР того, что случайная величина Х примет какое-то значение из интервала (х, х + Dх), будет пропорциональна величине данного интервала Dх: dР ~ Dх, или, введя коэффициент пропорциональности f, который сам может зависеть от х, получим:
dР = f(х) × Dх = f(x) × dx
Введенная здесь функция f(х) называется плотностью распределения вероятностей случайной величины Х, или, короче, плотностью вероятности, плотностью распределения. дифференциальное уравнение, решение которого дает вероятность попадания величины Х в интервал (х1, х2):
Р(х1 <
Х < х2) = f(х) dх.
Графически вероятность Р(х1 < Х < х2) равна площади криволинейной трапеции, ограниченной осью абсцисс, кривой f(х) и прямыми Х = х1 и Х = х2 (рис.3). Это следует из геометрического смысла определенного интеграла Кривая f(х) при этом называется кривой распределения.
Из следует, что если известна функция f(х), то, изменяя пределы интегрирования, можно найти вероятность для любых интересующих нас интервалов. Поэтому именно задание функции f(х) полностью определяет закон распределения для непрерывных случайных величин.
Для плотности вероятности f(х) должно выполняться условие нормировки в виде:
f(х) dх = 1,
если известно, что все значения Х лежат в интервале (а, b), или в виде:
f(х) dх = 1,
если границы интервала для значений Х точно неопределенны.
Основные числовые характеристики случайных величин
Во многих практически значимых ситуациях пользуются так называемыми числовыми характеристиками случайных величин, главное назначение этих характеристик – выразить в сжатой форме наиболее существенные особенности распределения случайных величин. Важно, что данные параметры представляют собой конкретные (постоянные) значения, которые можно оценивать с помощью полученных в опытах данных. Этими оценками занимается «Описательная статистика».
В теории вероятностей и математической статистике используется достаточно много различных характеристик, но мы рассмотрим только наиболее употребляемые. Причем лишь для части из них приведем формулы, по которым рассчитываются их значения, в остальных случаях вычисления оставим компьютеру.
Рассмотрим характеристики положения – математическое ожидание, моду, медиану.
Они характеризуют положение случайной величины на числовой оси, т.е. указывают некоторое ориентировочное значение, около которого группируются все возможные значения случайной величины. Среди них важнейшую роль играет математическое ожидание М(Х).
Математическое ожидание М(Х) случайной величины
Х является вероятностным аналогом ее среднего арифметического (М(Х)
=
или М(Х)
»
).
Для дискретной случайной величины М(Х) вычисляется по формуле:
М(Х) = х1р1
+ х2р2 +…+ хnрn =.
Для непрерывной случайной величины М(Х) определяют по формулам:
М(Х) = или
М(Х) =
где f(x) – плотность вероятности, dP = f(x)dx – элемент вероятности (аналог pi для малого интервала Dx (dx)).
Пример: Вычислите среднее значение непрерывной случайной величины, имеющей на отрезке (a, b) равномерное распределение.
Решение: при равномерном распределении плотность вероятности на интервале (a, b) постоянна, т.е. f(х) = fo = const, а вне (a, b) равна нулю; из условия нормировки найдем значение f0:
= f0
= f0 × x
= (b-a)f0
, откуда
Поэтому:
M(X) = =
=
(a + b).
Следовательно, математическое
ожидание М(Х) совпадает с серединой интервала (a, b), определяющей , т.е.
= M(X) =
.
Модой Мо(Х) дискретной случайной величины называют ее наиболее вероятное значение ,а непрерывной – значение Х, при котором плотность вероятности максимальна
Медианой (Ме) случайной величины обычно пользуются только для непрерывных случайных величин, хотя формально ее можно определить и для дискретных Х. Медианой Ме(Х) случайной величины называют такое значение Х, которое делит все распределение на две равновероятные части, т.е. вероятности Р(Х < Ме) и Р(Х > Ме) оказываются равными между собой:
Р(Х < Ме) = Р(Х
> Ме) = .
Поэтому медиану можно вычислить из соотношения:
=
.
Графически медиана – это значение случайной величины, ордината которой делит площадь, ограниченную кривой распределения, пополам: S1 = S2 (рис. 4в).
Если М(Х), Мо(Х) и Ме(Х) совпадают, то распределение случайной величины называют симметричным, в противном случае – асимметричным.
Характеристики рассеяния – это дисперсия и стандартное отклонение (среднее квадратическое отклонение)
Дисперсия D(X) случайной величины Х определяется как математическое ожидание квадрата отклонения случайной Х от ее математического ожидания М(Х):
D(X) = M[X – M(X)]2 ,
или D(X) = M(X2 ) – [M(X)]2 .
При конкретных расчетах для дискретной случайной величины эти формулы записываются так:
D(X) =[хi–М(Х)]2
× рi , или D(X) =
хi2
рi – [M(X)] 2
Для непрерывной случайной величины, распределенной в интервале (a,b), они имеют вид:
D(X) =[x–M(X)]
2 f(x)dx, или D(X) =
х2 f(x)dx – [M(X)]2,
а для интервала (-∞,+∞):
D(X)=[x–M(X)]2
f(x)dx, или D(X)=
х2 f(x)dx– [M(X)]2.
Дисперсия характеризует рассеяние, разбросанность, значений случайной величины Х относительно ее математического ожидания. Само слово «дисперсия» означает «рассеяние».
Однако дисперсия D(Х) имеет размерность квадрата случайной величины, что весьма неудобно при оценке разброса в физических, биологических, медицинских и других приложениях. Поэтому обычно пользуются параметром, размерность которого совпадает с размерностью Х. Это – среднее квадратическое (иначе – стандартное) отклонение случайной величины Х, которое обозначают s (Х):
s (Х) = .
Итак, математическое ожидание, мода, медиана, дисперсия и среднее квадратическое отклонение являются наиболее употребляемыми числовыми характеристиками случайных величин, каждая из которых выражает какое-нибудь характерное свойство их распределения.
Нормальный закон распределения случайных величин
Нормальный закон распределения (закон Гаусса) играет исключительно важную роль в теории вероятностей. Во-первых, это наиболее часто встречающийся на практике закон распределения непрерывных случайных величин. Во-вторых, он является предельным законом в том смысле, что к нему при определенных условиях приближаются другие законы распределения.
Нормальный закон распределения характеризуется следующей формулой для плотности вероятности:
,
где х – текущие значения случайной величины X; М(X) и s – ее математическое ожидание и стандартное отклонение. Видно, что если случайная величина распределена по нормальному закону, то достаточно знать только два числовых параметра: М(Х) и s, чтобы полностью знать закон ее распределения.
График функции называется нормальной
кривой распределения (кривой Гаусса). Он имеет симметричный вид относительно
ординаты х = М(Х). Максимальная плотность вероятности,
равная »
,
соответствует математическому ожиданию М(Х) =
;
по мере удаления от нее плотность вероятности f(х) падает и постепенно
приближается к нулю
Величина М(Х) называется также центром рассеяния. Среднеквадратичное отклонение s характеризует ширину кривой распределения.
При изменении значения М(Х) в нормальная кривая не меняется по форме, но сдвигается вдоль оси абсцисс. С возрастанием s максимальная ордината кривой убывает, а сама кривая, становясь более пологой, растягивается вдоль оси абсцисс, при уменьшении s кривая вытягивается вверх, одновременно сжимаясь с боков. Вид кривой распределения при разных значениях s:(s3<s2<s1) показан .
Естественно, что при любых значениях М(Х) и s площадь, ограниченная нормальной кривой и осью Х, остается равной 1 (условие нормировки):
f(х) dх = 1, или
f(х) dх = 1.
Нормальное распределение симметрично,
поэтому
М(Х) = Мо(Х) = Ме(Х).
Вероятность попадания значений случайной величины Х в интервал (x1,x2), т.е. Р (x1 < Х< x2), равна:
Р(x1 < Х < x2) =
.
На практике часто приходиться вычислять вероятности попадания значений нормально распределенной случайной величины на участки, симметричные относительно М(Х). В частности, рассмотрим следующую, важную в прикладном отношении задачу. Отложим от М(Х) вправо и влево отрезки, равные s, 2s и 3s и проанализируем результат вычисления вероятности попадания Х в соответствующие интервалы:
Р(М(Х) – s <Х<М(Х) + s) = 0,6827 = 68,27 %.
Р(М(Х) – 2s <Х<М(Х) + 2s) = 0,9545 = 95,45 %.
Р(М(Х) – 3s <Х<М(Х) + 3s) = 0,9973 = 99,73 %.
Следует: практически
достоверно, что значения нормально распределенной случайной величины Х с
параметрами М(Х) и s лежат в интервале М(Х) ± 3s. Иначе говоря, зная М(Х)
= и s, можно указать интервал, в
который с вероятностью Р = 99,73% попадают значения данной случайной
величины. Такой способ оценки диапазона возможных значений Х известен
как «правило трех сигм».
Пример. Известно, что для здорового человека рН крови является нормально распределенной величиной со средним значением (математическим ожиданием) 7,4 и стандартным отклонением 0,2. Определите диапазон значений этого параметра.
Решение: для ответа на этот вопрос воспользуемся “правилом трех сигм”. С вероятностью равной 99,73% можно утверждать, что диапазон значений рН для здорового человека составляет 6,8 – 8.
Предмет и задачи математической статистики. Генеральная и выборочная совокупность
Математические законы теории вероятностей – это математическое выражение реальных закономерностей, которым подчиняются массовые случайные явления. При этом каждое исследование случайных явлений, выполняемое методами теории вероятностей, прямо или косвенно опирается на экспериментальные данные, на результаты испытаний и наблюдений.
Разработка методов получения, описания и анализа экспериментальных данных, определенных в результате исследования массовых случайных явлений, составляет предмет специальной науки – математической статистики. Эти данные принято называть статистическими. Статистические данные часто можно рассматривать как совокупность экспериментальных результатов, которые представляют собой набор возможных значений случайных однородных величин (роста, массы тела, длительности пребывания больного на койке, содержания сахара в крови и т.д.).
Фундаментальными понятиями математической статистики являются генеральная совокупность и выборочная совокупность (выборка). Существуют разные подходы к пониманию смысла этих величин. Мы определяем их так. Генеральная совокупность – это множество подлежащих статистическому изучению однородных объектов, которые характеризуются определенными качественными или количественными признаками. Например, конечная и реально существующая генеральная совокупность – конкретно выбранная популяция: все жители Беларуси в фиксированный момент времени или только все мужчины, или женщины, или дети. Следующий пример: бесконечная и реально существующая генеральная совокупность – множество действительных чисел, лежащих между 0 и 1.
Чтобы изучить генеральную совокупность по какому-либо из ее количественных признаков Х (острота зрения, показатели анализа крови и т.д.), нужно определить закон распределения данного признака и основные характеристики этого распределения, например, математическое ожидание и дисперсию. Для этого следовало бы изучить все ее объекты и затем обработать полученный массив данных методами теории вероятностей. Однако на практике провести сплошное обследование объектов генеральной совокупности часто физически невозможно и экономически невыгодно. Поэтому обычно исследуется только часть объектов, так называемая выборка.
Совокупность «n» объектов, отобранных из интересующей нас генеральной совокупности для конкретного статистического исследования, называется выборочной совокупностью или выборкой.
Исследование выборки дает некоторое приближенное, оценочное значение интересующего нас параметра, принимающего различные значения для разных выборок. Таким образом, постоянная величина – значение нужной характеристики для генеральной совокупности – заменяется значением случайной величины, полученным по результатам выборки на основании некоторого правила. Поэтому главная цель выборочного метода, основного в математической статистике, – по вычисленной характеристике выборки как можно точнее определить соответствующую характеристику генеральной совокупности. Это возможно лишь в том случае, когда отобранная для работы часть объектов репрезентативна целому, т.е. типична, обладает теми же основными чертами, что и все целое. Иначе говоря, выборка должна быть представительной, т.е. по возможности полнее «представлять» свою генеральную совокупность. Это одно из важнейших требований, предъявляемых к выборке, несоблюдение которого ведет к грубым ошибкам и обесценивает результаты исследования. Например, если при изучении заболеваемости населения республики (генеральная совокупность) ишемической болезнью сердца в качестве выборки будет взята группа студентов, то результаты окажутся ошибочны, поскольку свойства выборки не будут соответствовать свойствам генеральной совокупности, как и в случае, когда в качестве выборки будут взяты только пациенты кардиологического диспансера. Репрезентативность выборки обеспечивается ее достаточным объемом и определенными правилами ее формирования, которые в данном пособии не рассматриваются.
Из многочисленных задач, решаемых математической статистикой, выделим следующие.
Определение статистических характеристик выборки (методы описательной статистики).
Определение параметров генеральной совокупности по данным выборки: точечные оценки и доверительные интервалы для параметров распределения.
Исследование статистической связи между двумя признаками выборочной совокупности (элементы корреляционного анализа).
Определение значимости различия между двумя выборочными совокупностями (введение в теорию статистических гипотез).
Итак, мы хотим знать распределение признака Х в генеральной совокупности, но реально исследуем лишь некоторую выборку из нее.
В серии экспериментов, проводимых с выборкой, величина Х принимает определенные значения. Эти значения записанные для всех элементов выборки в том порядке, в котором они были получены в опытах, представляет собой простой статистический ряд. Каждое значение Х в полученном числовом ряду называют вариантой. Полученные данные и подлежат статистической обработке, статистическому анализу.
Первый шаг при обработке этого материала – наведение в нем определенного порядка, ведущего к получению статистического распределения выборки. Здесь возможны два основных способа: создание вариационного ряда или интервального ряда.
Рассмотрим вариационный ряд. Пусть
некоторая выборка исследуется по количественному признаку Х, который
представляет собой дискретную случайную величину. В имеющемся у нас простом
статистическом ряду варианта х1 встречается (повторяется) m1 раз, х2 – m2 раза,
… хк – mк раз, при этом, т.е. равна объему
выборки. Далее по данным простого статистического ряда строится статистическое распределение
(в медицинской литературе – вариационный ряд), которое удобно представить в
виде таблицы, включающей в себя:
различные по значению варианты xi, расположенные в определенной, ранжированной *, заранее выбранной последовательности (обычно в порядке возрастания);
mi – частоты вариант, т.е. числа наблюдений (повторений) варианты хi в простом статистическом ряду;
pi*= mi /n – относительные частоты вариант, т.е. отношения частот mi к объему выборки n; они являются выборочными (эмпирическими) оценками вероятностей появления значений хi.
Каждая относительная частота указывает долю общего объема выборки, приходящуюся на данное значение варианты хi.
Итак, для дискретной величины Х вариационный ряд – статистическое распределение выборки – имеет следующий вид .
Варианта хi (х1< х2< х3 … < хk) |
х1 |
х2 |
х3 |
… |
xk |
Контроль
|
Частота mi |
m1 |
m2 |
m3 |
… |
mk |
|
Относительная частота |
|
|
|
… |
|
|
Полезность подобного представления данных очевидна по следующей причине: мы получаем практически важный результат – возможность оценить более и менее вероятные значения признака.
Интервальный ряд удобен тогда, когда количественный признак Х, характеризующий выборку, непрерывен, т.е. может принимать любые значения в некотором интервале. В этом случае статистическое распределение выборки (интервальный ряд) строится следующим образом. Область изменения признака (хмакс – хмин) разбивают на несколько интервалов обычно равной ширины. Число интервалов k, как правило, не менее 5 и не более 25 и приближенно определяется следующими эмпирическими формулами:
k = , или k » 1 + 3,32 lg n,
где n – объем выборки.
Ширина интервалов одинакова и равна:
Δx= h = .
Затем вычисляют границы интервалов: хмин =х0, х1=х0 + h, х2=х1 + h, х3=х2 + h,…., хмакс = хk. Поскольку некоторые варианты могут являться границей двух соседних интервалов, то, во избежание недоразумений, придерживаются следующего правила: к интервалу (a,b) относят варианты, удовлетворяющие неравенству a £ х < b.
Затем для каждого интервала подсчитывают частоты mi и (или) относительные частоты рi*=mi/n попадания вариант в данный интервал. Нередко используют также плотность относительной частоты:
=
.
Данную величину можно считать выборочной (эмпирической) оценкой плотности вероятности.