Тема 3. Методи біостатистики.
Теоретичні відомості.
Сучасна технологія аналізу даних
В основі обробки й аналізу даних лежать відомі математичні методи.
Завдяки використанню інформаційних технологій, у наш час етап обробки даних став найменш трудомісткім. На перше місце відносно трудомісткості вийшли такі етапи, як освоєння статистичних пакетів, етап підготовки даних до аналізу, етап попереднього аналізу даних й етап інтерпретації результатів. Усе в цілому привело до змін у технології обробки й аналізу даних.
При цьому для виконання методів обробки медико-біологічних даних від користувача потрібно лише застосування статистичних методів обробки даних та використання відповідних пакетів прикладних програм. Лікарю, як правило, не потрібно поглиблюватись у складні математичні теорії, а треба розуміти, для чого й яким чином вони використовуються.
На практиці для лікаря обробка й аналіз даних зводяться до вирішення наступних задач: одержання уяви про основні статистичні методи; засвоєння пакету прикладних програм; аналізу та інтерпретація результатів досліджень.
Сам аналіз даних з використанням статистичного пакету (робота із пакетом, сама технологія аналізу даних) включає в себе такі етапи: планування дослідження; підготовка даних до аналізу; попередній аналіз даних; вибір методу аналізу та його реалізація; інтерпретація результатів; подання результатів.
Планування дослідження.
На початкових етапах дослідження немає чіткості щодо методів обробки результатів. Тому треба передбачити можливість використання різних способів обробки й приблизного порівняння одержаних результатів з метою визначення, як обробляти наявні дані.
Наведена нижче таблиця допоможе краще зорієнтуватися в основних математичних методах обробки й аналізу даних.
Таблиця 19. Математичні методи обробки й аналізу даних
Джерело інформації, задача дослідження |
Методи обробки й аналізу |
Анкети, запитання, тести. Дослідження стану здоров’я, клінічні обстеження, медичні записи, реєстрації, історії хвороби. Виявлення взаємозв’язків. Опис випадків захворювань, співставлення із даними минулих років, вивчення ускладнень. Дослідження ефективності різних процедур, вивчення зв’язків між процедурами та їх наслідками. |
Класифікація даних. Створення таблиць та звітів.
Кореляційний аналіз. Факторний аналіз. Регресійний аналіз. Дисперсійний аналіз. Методи перевірки гіпотез. |
Скринінгові дослідження |
Дискримінантний аналіз, кластерний аналіз, методи розпізнання образів. |
Медико-статистичні дані. Дослідження захворюваності, динаміка захворюваності, виявлення періодичності. |
Методи аналізу випадкових процесів, спектральний аналіз, математичне моделювання. Методи розпізнання образів. Теорія масового обслуговування. Параметричний та непараметричний статистичний аналіз. |
Лабораторні експерименти та досліди на тваринах. |
Статистичні методи планування експериментів. Регресійний аналіз, дисперсійний аналіз, багатомірний статистичний аналіз, методи математичного моделювання. |
Клінічні дослідження. Порівняльні лікувальні дослідження, аналіз виживаності і спадковості із урахуванням належності пацієнта до певної групи, вивчення дозування препаратів. Розробка методів діагностики. |
Дисперсійний аналіз, регресійний аналіз, дискримінантний аналіз, методи перевірки гіпотез. Математичне моделювання процесів. Дискримінантний аналіз, кластерний аналіз, методи розпізнання образів. |
Клінічні лабораторні дані. Збирання, зберігання та передача клінічної інформації, аналіз якості і надійності лабораторних досліджень, догляд за пацієнтом. |
Статистичний аналіз. Дисперсійний аналіз. Регресійний аналіз. Послідовний аналіз Вальда. |
Підготовка даних до аналізу
Метою цього етапу є приведення даних до вигляду, що дозволить провести наступну їх обробку, й попереднє формування уявлення про тип (структуру) даних, що аналізуються.
Звичайно під час проведення медичного дослідження намагаються врахувати максимальну кількість характеристик, які істотні при аналізі питання, що досліджується. Дослідження, як правило, складається із декількох серій спостережень, під час яких в однакових умовах регіструються параметри окремих об’єктів (наприклад, хворих на певне захворювання). Маючи справу із серією спостережень, треба намагатись подати їх в простій формі, що дозволила б безпосередньо або шляхом наступних обчислень зробити з них висновки.
Всі дані доцільно звести до єдиної таблиці, в якій по рядках розташовані різні об’єкти спостереження (наприклад, хворі), а по стовпчиках параметри (наприклад, температура, частота серцевих скорочень, артеріальний тиск тощо). В цій таблиці об’єкти можуть бути об’єднані в декілька груп у відповідності до загальних ознак (за віком, статтю тощо).
Ми розглядаємо лише репрезентативні вибірки.
Відмітимо, що введені одного разу дані можуть бути оброблені за допомогою різних методів.
Важливим етапом у підготовці даних до аналізу є візуалізація, або перегляд даних. Щоб з’ясувати, які методи аналізу треба використати до даних і наскільки Вас задовольняють одержані результати після виконання статистичних процедур, треба мати можливість наочно уявити собі ці дані й результати. Адже вивчення таблиць менш зручна процедура, аніж подання даних у вигляді графіків та діаграм. Графічні образи в медичних наукових розробках допомагають спостерігати за тенденціями змін, виявляти складні взаємодіючі фактори й спрощує співставлення даних.
Таким чином, використання графіків полегшує попередній аналіз інформації, тому доцільно будувати різні графіки для кращого розуміння одержаного експериментального матеріалу, що дозволяє одержати загальне уявлення про особливості та закономірності даних, що обробляються. Результати використання статистичних процедур, як правило, подаються в наочному графічному вигляді.
Попередній аналіз даних
Метою цього етапу є формування уявлення про тип (структуру) даних, що аналізуються, та попередній вибір методів аналізу. Цей етап включає: уточнення структури даних й розбиття їх на групи; розрахунок основних статистичних характеристик; виявлення розходжень між групами даних; визначення взаємозв’язків між параметрами; визначення емпіричних законів розподілу, яким підпорядковані дані.
Вибір і реалізація методу аналізу
В сучасних прикладних пакетах дані достатньо просто обробляються за допомогою різних процедур, з тим щоб потім можна було обрати метод, що дає найкращий результат.
Використання певного статистичного методу визначається загальною метою дослідження. Наприклад, якщо необхідно оцінити ступінь впливу відомих факторів на величину, що вимірюється, використовують дисперсійний та/або регресійний аналізи. Якщо із великої кількості факторів впливу треба виявити декілька провідних – використовують регресійний та факторний аналізи. Для оцінки особливостей явища, що змінюється з часом, використовують кореляційний та спектральний аналізи. Щоб розбити сукупність об’єктів, що вивчаються, на групи “схожих “ випадків, використовують кластерний аналіз, дискримінатний аналіз.
Інтерпретація результатів аналізу
У медиків-дослідників часто виникають труднощі в інтерпретації результатів медико-біологічних даних. Тому на цьому етапі треба використовувати методи математичної статистики, котрі пропонуються досліднику в пакеті прикладних програм.
Подання результатів
Рівень опису самого аналізу, його результатів, наочність мають бути коректними та зрозумілими для практичних медичних працівників.
Статистичний аналіз даних.
Закони розподілу випадкових величин
Випадковою називається величина, котра в результаті експерименту, який може бути повторений при незмінних умовах велику кількість разів, може прийняти значення х1, х2,…, хп. Дискретною випадковою називається величина, котра може приймати скінчену кількість значень (наприклад, кількість дітей, що народилися за добу в м. Києві). Неперервною випадковою називається величина, котра може приймати будь-які числові значення в даному інтервалі значень (наприклад, маса тіла і вага новонароджених).
Закон розподілу випадкових величин – функціональна залежність між значеннями випадкових величин та ймовірностями з якими вони приймають ці значення. Закон розподілу може бути заданий у вигляді таблиці, формули або графіка.
Функція розподілу – це функція F(x), котра задає ймовірність того, що випадкова величина Х приймає у випробовуванні прийме значення менше х:
F(x)=Р(Х<х).
Її називають інтегральною функцією.
Функція розподілу неперервної випадкової величини F(x) є неспадною неперервною функцією. Для дискретних випадкових величин функція розподілу є розривною ступеневою функцією.
Щільність розподілу для неперервної випадкової величини – це похідна від функції розподілу:
f(x)=F/(x)/
Параметри розподілу: математичне сподівання, дисперсія.
Математичне сподівання для неперервної випадкової величини:
.
Математичне сподівання для дискретної випадкової величини:
.
Дисперсія для неперервної випадкової величини:
.
Дисперсія для дискретної випадкової величини:
.
Розглянемо закони розподілу, котрі найчастіше застосовуються при аналізі медико-біологічних даних.
Закони розподілу дискретних випадкових величин
Біноміальний розподіл (розподіл Бернуллі)
Дискретна випадкова величина х, яка може приймати тільки цілі невід’ємні значення з ймовірностями
т=0,1,…,п,
де р – ймовірність появи події в кожному випробуванні, т – кількість сприятливих подій, п – загальна кількість випробувань, q=1–p,
називається розподіленою за біноміальним законом з математичним сподіванням пр, та дисперсією – npq.
Закон Бернуллі використовується тоді, коли необхідно знайти ймовірність появи випадкової події, яка реалізується рівно т з серії п випробувань.
Біноміальному закону розподілу підпорядковуються випадкові події такі, як число викликів швидкої допомоги за певний проміжок часу, черги до лікаря в поліклініці, епідемії тощо.
Приклад 1
Нехай Х – число рецесивів серед п нащадків отриманих при схрещуванні двох гібридів gGgG. За теорією Менделя ймовірність того, що нащадок двох гібридів буде рецесивом дорівнює 0,25, в рамках теорії Менделя Х є біноміальною випадковою змінною з ймовірністю:
,
Тобто підставляючи певні значення т отримаємо ймовірність рецесивів серед п нащадків.
Розподіл Пуассона
Дискретна випадкова величина Х, яка може приймати тільки цілі невід’ємні значення з ймовірностями
називається розподіленою за законом Пуассона з математичним сподіванням і дисперсією , де .
Розглядаються малоймовірні події, які відбуваються у довгій серії незалежних випробувань декілька разів.
Розподіл Пуассона, як граничний біноміальний використовується при вирішенні задач надійності медичного обладнання та апаратури, розповсюдження епідемії, викликів до хворого дільничих лікарів та в інших задачах масового обслуговування.
Приклад 2
Вакцина формує імунітет від деякого захворювання з ймовірністю 0,999. Провакциновано 4000 мешканців міста. Яка ймовірність того, що двоє з них не набули імунітету.
.
Закони розподілу неперервних випадкових величин
Нормальний закон розподілу (Гауса)
В біології та медицині найчастіше розглядають випадкові величині, які мають нормальний закон розподілу, наприклад, частота дихання, частота серцевих скорочень, динаміка росту популяції тощо.
Для нормального закону розподілу щільність розподілу задається рівнянням:
де т – математичне сподівання, а s – середнє квадратичне відхилення (– дисперсія). Стандартним нормальним розподілом називають розподіл з нульовим математичним очікуванням і одиничною дисперсією, щільність розподілу якого має наступний вигляд:
Щільність ймовірності стандартного нормального розподілу має вигляд, представлений на рис. 25, функція його розподілу представлена на рис. 26.
Рис. 25.Щільність ймовірності стандартної нормальної випадкової величини
Рис. 26. Функція розподілу стандартної нормальної випадкової величини
Дисперсія характеризує квадрат розсіювання випадкової величини. Для того щоб отримати характеристику розсіювання, чка має таку ж саму розмірність що й випадкова величини використовують стандартне відхилення
Зміна математичного очікування не змінює форму кривої, а лише переміщує її по осі Х. При зміні дисперсії форма кривої змінюється рис. 27.
Рис. 27 Зміна форми щільності ймовірності в залежності від дисперсії
З рисунка видно, що чим більше значення дисперсії, тобто чим більший ступінь розсіювання випадкових величин, тим більш пологою і розтягнутою стає крива і навпаки.
Рис. 28 Графік щільності нормально розподіленої випадкової величини з математичним сподіванням т та дисперсією
Площа під графіком функції щільності дорівнює 1 – це ймовірність достовірної події.
Основна кількість отриманих результатів групується навколо найбільш ймовірного значення. В практичних застосування важливим є правило «трьох сігм»:
,
Тобто ймовірність того, що нормально розподілена випадкова величина відрізняється від свого математичного сподівання більше ніж на три сігма приблизно дорівнює 0,0027, така подія є практично неможливою.
Розподіл
Нехай незалежні випадкові величини х1, х2,…, хп розподілені за нормальним законом з т=0 та =1.
Закон розподілу випадкової величини
,
називається хі-квадрат розподілом з п ступенями вільності (кількість незалежних координат).
Зі збільшенням ступенів вільності розподіл наближається до нормального.
Розподіл Ст’юдента (Госсета)
Нехай х, у незалежні випадкові величини, причому х розподілено за нормальним законом з параметрами (0;1), у – за законом з п ступенями вільності. Тоді, розподіл випадкової величини називається законом Ст’юдента з п ступенями вільності або t-розподілом.
При збільшенні числа ступенів вільності розподіл Ст’юдента наближається до нормального.
Значення коефіцієнтів Ст’юдента для відповідної довірчої ймовірності та п ступенями вільності затабульовані.
В математичній статистиці при визначенні оцінок ймовірностей попадання випадкової величини в довірчий інтервал – інтервал, який із заданою ймовірністю р покриває параметр випадкової нормально розподіленої величини, використовують t-розподіл Ст’юдента:
Математичне очікування розподілу Ст’юдента дорівнює 0, а дисперсія – . Щільність ймовірності і функція розподілу Ст’юдента представлені на рис. 29 і 30 відповідно.
Число ступенів вільності – це кількість незалежних координат.
Рис. 29. Щільність ймовірності розподілу Ст’юдента
Рис. 30. Функція розподілу випадкової величини Ст’юдента зі ступенем вільності 1
Емпіричні закони розподілу випадкових величин
В більшості випадків при розв’язанні реальних задач закони розподілу невідомі, тому їх необхідно оцінювати по вибірці.
Набір значень (х1,х2,…,хn) випадкової величини Х, котрі отримані в результаті п дослідів, називається вибіркою об’єму n. За частотою ознак, котрі попали у вибірку ми можемо оцінити долю ознаки в усій партії, тобто в генеральній сукупності. Вибірка називається репрезентативною, якщо вона представляє всі частини генеральної сукупності.
Зазвичай на практиці ми отримуємо емпіричний розподіл випадкової величини. Результати вимірювання можна представити у вигляді діаграми, яка показує, як часто були отримані ті чи інші значення. Такий емпіричний графік розподілу називається гістограмою (рис. 31).
Для побудови гістограми весь діапазон отриманих значень розбивають на малі інтервали і підраховують ймовірність попадання випадкової величини в даний інтервал, тобто вісь ординат – це вісь ймовірностей попадання випадкової величини в даний інтервал, а вісь абсцис – це вісь результатів спостережень, котрі розбиті на напівзамкнені інтервали. Отримаємо фігуру, що складається з прямокутників, кількість яких дорівнює числу інтервалів на які розбиті результати спостережень.
Приклади таких спостережень: частота серцевих скорочень, частота дихання у групи осіб (рис. 31); розподіл числа імпульсів, що поступають від звукового генератора за певний проміжок часу тощо.
Рис. 31. Частота дихання
Оцінка параметрів розподілу та перевірка гіпотез
Загальні поняття
Статистичні гіпотези – це припущення, котрі відносяться до виду розподілу випадкової величини або окремих його параметрів.
Задача випробування статистичних гіпотез виникає тоді, коли обставини вимушують нас робити вибір між двома способами дії.
Для оцінювання параметрів по емпіричним законам формулюється нульова гіпотеза (Н0) про «відсутність розбіжностей». Нульова гіпотеза є прикладом статистичного висновку: якщо нульову гіпотезу відкинути, то висновок полягає в тому, що у сукупності, котра розглядається є розбіжності, тобто приймається альтернативна гіпотеза Н1.
Ймовірність з якою може бути відхилена нульова гіпотеза, коли вона є вірною, називається рівнем значущості (для медико-біологічних досліджень достатнім є рівень значущості ). Рівень значущості задається заздалегідь.
Ймовірність прийняття правильності рішення (гіпотеза Н0 є вірною) називається довірчою ймовірністю (для медико-біологічних досліджень ).
Перевірка гіпотез як правило зводиться до перевірки статистичних характеристик, що оцінюють параметри законів розподілу.
Для перевірки гіпотез використовують статистичний критерій K – це вирішуюче правило, яке забезпечує прийняття вірності гіпотези і відхилення хибної з великою ймовірністю.
Сукупність значень, при яких основна гіпотеза не приймається називається критичною областю. Точки, що відділяють критичну область від області прийняття рішень називаються критичними.
Для визначення критичної області задається рівень значущості α. Для кожного з критеріїв є таблиці, за якими знаходять значення критичних точок.
Задача найкращого вибору критичної області розв’язується звичайно так, щоб критерій перевірки мав найбільшу чутливість, тобто щоб ми мали найбільшу ймовірність попадання нашого критерія в критичну область, коли вірна альтернативна гіпотеза. Ця ймовірність носить назву міцності критерію.
В силу того, що гіпотези не можуть бути доведені, а можуть бути перевірені при прийнятті гіпотези можливі помилки.
Розглянемо приклад.
Процес виробництва ліків є складним. Будь-яке відхилення (навіть незначне) від технології спричиняє появу високотоксичної побічної домішки. Токсичність цієї домішки може бути настільки великою, що навіть така її кількість яка не може бути визначена при хімічному аналізі є небезпечною для пацієнта. Тому перед тим як випускати у продаж партію ліків її досліджують на токсичність біологічними методами: невеликі дози препарату вводяться певній кількості тварин і результати реєструються. Кількість тварин, що загинули є випадковою величиною. Як правило ін’єктується декілька груп тварин.
Дослідження препарату може призвести до однієї з двох можливих дій:
– випустити партію ліків у продаж;
– повернути партію постачальнику для переробки або знищення.
Вибір між двома діями може привести до здійснення помилок двох видів:
– визнати препарат безпечним для пацієнтів, коли насправді препарат небезпечний. Ця помилка може коштувати життя пацієнта.
– визнати препарат небезпечним для пацієнтів, коли насправді він є безпечним. Наслідки цієї помилки можуть бути виражені і додаткових фінансових затратах.
Таким чином наслідки помилок є різними за своїми значеннями, тому при випробуванні гіпотез є вважливим уникати однієї із можливих помилок, яка є більш важлива ніж інша.
Отже, при перевірці гіпотез можливі помилки двох видів:
– Н0 відкидається, коли вона правильна – помилка I-го роду.
– Н0 приймається, коли правильна Н1 – помилка II-го роду.
В табл. 6.3 показані можливі ситуації при перевірці гіпотез.
Таблиця 20. Ймовірність помилок при різних варіантах ситуацій, що виникають при перевірці гіпотез
|
|
Фактична ситуація |
|
|
|
Н0 правильна |
Н0 неправильна |
Дії перевіряючого |
Відкинути гіпотезу Н0 |
a |
1-a |
Прийняти гіпотезу Н0 |
1-a |
a |
Понижуючи рівень значущості ми зменшуємо ймовірність помилки першого роду, але при цьому збільшується ймовірність помилки другого роду.
Зазначимо, що чим більша міцність критерію, тим менша ймовірність помилки другого роду.
Етапи перевірки гіпотез
1. Визначення статистичної моделі, що буде використовуватися.
Тут висувають деякий набір передумов відносно закону розподілу випадкової величини і її параметрів. Наприклад, закон розподілу нормальний, величини незалежні і т.д.
Формулювання Н0 і Н1.
Вибирають критерій, котрий підходить до висуненої статистичної моделі.
Вибирають рівень значущості a в залежності від надійності висновків, що вимагаються.
Визначення критичної області для перевірки Н0.
Якщо значення критерію попадає в цю область, то Н0 відкидається. При умові, що Н0 правильна, ймовірність попадання в критичну область дорівнює a. Вигляд цієї області (одностороння або двостороння) залежить від прийнятої Н0.
Розрахування значення вибраного статистичного критерію для існуючих даних.
Порівняння розрахованого значення критерію з критичним,а потім вирішують прийняти чи відкинути Н0.
Критерії перевірки гіпотез
Однією з задач математичної статистики є встановлення узгодженості послідовності спостережень випадкових величин або подій з гіпотезами щодо розподілу випадкової величини (або ймовірності події).
Гіпотези, що перевіряються формулюються або на основі теоретичних міркувань, або в процесі статистичного дослідження.
Перевірка гіпотез, як правило, зводить до оцінювання параметрів закону розподілу. Твердження, які формулюються стосуються значень параметрів законів розподілу. З таких тверджень формулюються наслідки. Наслідки мають характер імовірнісних тверджень щодо поведінки статистичних характеристик. Перевірка полягає у обчисленні цих характеристик за даними спостережень. Такі характеристики називаються критеріями перевірки (К).
Для критеріїв перевірки заздалегідь фіксують рівень значущості a, вважаючи що в кожному експерименті подія з ймовірністю менше a практично не можлива.
Чим менше рівень значущості, тим менше ймовірність відхилити гіпотезу коли вона є вірною (тобто здійснити помилку І-го роду).
По значенню a знайдемо таке число хa щоб
Р(К>хa)=a.
Нехай – значення критерію, що розрахований по вибірці:
– якщо , то гіпотеза відхиляється;
– якщо , то гіпотеза приймається.
Стійкість критеріїв
Будь-які гіпотези перевіряють, висуваючи спочатку комплекс деяких передумов про закон розподілу випадкової величини. Невиконання передумов робить висновки із відповідних перевірок не відповідними істині. Тобто, ймовірність неправильних висновків зростає. Ступінь зменшення надійності висновків у різних критеріїв відрізняється. Стійкими називаються такі критерії, для яких малі відхилення від прийнятих передумов (статистичної моделі) незначно впливають на надійність висновків, зроблених за ними.
У зв’язку з цим при розв’язанні реальної задачі необхідно підібрати критерії, що підходять для умов саме цієї задачі. Оскільки, існує велика кількість різних критеріїв (особливо непараметричних), це може викликати певні труднощі у спеціалістів, для яких статистичні методи є всього лиш інструментом, яким вони користуються рідко. Тому розглянемо певну послідовність дій, притримуючись якої можна зробити правильний вибір.
Таблиця 21. Вибір методу для розв’язання задачі про порівняння параметрів розподілу вибірки
Формулювання задачі в прикладній постановці |
Формулювання задачі в статистичній постановці |
Додаткові умови |
Метод, що застосовується |
|
Порівняння показників контрольної та експериментальної вибірок |
Перевірка гіпотези про рівність середніх (центрів розподілу) в двох незалежних вибірках |
Норма-льний закон розподілу |
Дисперсії вибірок рівні |
t-критерій (Ст’юдента) при рівних дисперсіях |
Дисперсії вибірок не рівні |
t-критерій (Ст’юдента) при нерівних дисперсіях |
|||
Без припущення про дисперсії (але при однаковому розмірі вибірок) |
t-критерій (Ст’юдента) без припущення про дисперсії |
|||
Порівняння показників вибірки до і після експерименту |
Перевірка гіпотези про рівність середніх в двох залежних вибірках |
Нормальний закон розподілу |
t-критерій (Ст’юдента) для зв’язних вибірок |
|
Чи можна вважати, що середнє значення показника дорівнює певному номінальному значенню? |
Перевірка гіпотези про рівність середньої константі |
Нормальний закон розподілу |
t-критерій (Ст’юдента) |
|
Порівняння розсіювання показників двох вибірок |
Перевірка гіпотези про рівність дисперсій (про належність дисперсій до однієї генеральної сукупності) |
Нормальний закон розподілу |
F- критерій Фішера |
|
Чи можна вважати, що в декількох вибірках має місце одне і теж значення показника? |
Перевірка гіпотези про рівність середніх (про належність середніх до однієї генеральної сукупності) |
Нормальний закон розподілу |
Дисперсійний аналіз |
Послідовність операцій при виборі критерію
1. Постановка задачі.
2. Визначити клас критеріїв, що використовуються.
3. Визначити додаткові умови вибору критерію (багато критеріїв вимагають додаткових умов, без яких їх використання некоректне).
4. Вибір конкретного критерію (в багатьох ситуаціях існує декілька рівнозначних критеріїв, придатних для перевірки гіпотези).
Розглянемо детальніше вище зазначені операції.
Постановка задачі
– Порівняння показників контрольної ті експериментальної вибірок.
У нас є дві незалежні вибірки, середні значення деяких параметрів ми порівнюємо. Наприклад, дві групи хворих, лікування яких здійснювалося різними методами.
– Порівняння показників вибірки до і після експерименту.
В даному випадку ми маємо справу з так званими зв’язними вибірками. Наприклад, значення певного показника в одній і тій же групі хворих до і після лікування.
– Чи можна вважати, що середнє значення показника дорівнює певному номінальному значенню?
Для певного показника (наприклад, артеріальний тиск, частота пульсу) може існувати певне значення, котре вважається нормою. Необхідно перевірити, чи можна вважати, що середнє значення показника в цій групі дорівнює нормі. Після перевірки цієї гіпотези для середнього довірчий інтервал обов’язково потрібно побудувати і прослідкувати. Щоб для вибірки виконувалися необхідні умови.
– Порівняння розсіювання показників двох вибірок.
В деяких біологічних експериментах важливим є не середнє значення показника, а його розсіювання. Наприклад, необхідно вибрати препарат (метод лікування), для якого розсіювання контрольованої ознаки після застосування буде мінімальним.
– Чи можна вважати, що в декількох вибірках має місце одне і теж значення показника?
– Задача аналогічна попередній, але порівнюються не два типи впливу, а три і більше.
– Чи можна вважати, що в декількох вибірках має місце одне і теж значення розсіювання показника?
Наприклад, ми застосовуємо для лікування різних груп хворих декілька препаратів. Чи можемо ми сказати, що результати лікування статистично не відрізняються?
Визначення додаткових умов вибору критерію
Найпоширенішими додатковими умовами для вибору критерію є наступні умови:
– Рівні чи не рівні розміри вибірок?
– Рівні чи не рівні дисперсії вибірок, що порівнюються?
– Чи однакові закони розподілу вибірок, що порівнюються?
Остання умова є вимогою будь-якого критерію, але ніколи реально не перевіряється. Вона повинна бути забезпечена правильним формування вибірок. Перша умова перевіряється простим порівнянням, а для перевірки другої користуються відповідними критеріями, що вибираються аналогічно.
Вибір конкретного критерію
Якщо існує декілька варіантів, критерій вибирається виходячи з наявних програмних засобів або можливості перевірки посилань для його використання.
Вимоги до вибірок
При проведенні досліджень (особливо клінічних) необхідно забезпечити наступні вимоги вибірки.
Однорідність. При виборі впливу сукупності факторів, що вивчаються, ознаки, котрі нас цікавлять, не повинні суперечити одна одній. Наприклад, при дослідженні впливу кави на організм людини, в виборі досліджуваних не повинно бути людей, яких кава збуджує, і тих, яких від нього хилить на сон. В ряді випадків причини неоднорідності можуть бути невідомі і тому перед аналізом даних бажана перевірка вибірки методами кластерного аналізу.
При виборі не повинно факторів, котрі сильно впливають на параметр, крім тих, які ми вивчаємо. Якщо ми припускаємо, що фази Місяця впливають на ефективність дії препарату, то фазу Місяця необхідно враховувати як фактор або збирати вибірки, в яких фаза Місяця однакова.
Репрезентативність (структурна відповідність). Вибірка, що вивчається, має бути репрезентативна генеральній сукупності. Це означає, що коли ми формуємо вибірку з сукупності, вона повинна відповідати наступним вимогам:
Вид статистичного розподілу вибірку повинен відповідати розподілу генеральної сукупності.
Величина вибірки повинна бути достатньою для відображення структури генеральної сукупності.
У зв’язку з цим вибірка із хворих, які проходили курс лікування в одній клініці або покупці однієї аптеки не є репрезентативними за своєю структурою. Опитування, проведене по телефону, відображає думку лише власника телефону, а не всього населення, структура захворювання в різних областях різна. Висновки маркетингового дослідження не розповсюджується на невеликі міста.
У тому випадку коли порівнюємо певні параметри двох вибірок, необхідно забезпечити рівність розподілу частот факторів, котрі мають вплив (стать, вік, серйозність захворювання і т.д.) у порівнюваних вибірках.
Співпадання умов спостережень. Умови спостереження для окремих елементів вибірки або двох вибірок, що порівнюються, повинні співпадати. Найкращий спосіб це забезпечити – подвійний сліпий метод, при якому ні пацієнт, ні середній медичний персонал не знає, які ліки або плацебо видається конкретному хворому. Це дозволяє позбутися від ефекту навіювання (вплив якого можливий на 30–50% пацієнтів) і ефекту упередженості.
Критерій (критерій Пірсона)
Нехай в експерименті спостерігається одна з r подій: А1, А2,….,Аr; р1,р2,…,рr – гіпотетичні ймовірності цих подій. Проведено п спостережень при цьому подія Ап спостерігалась тк разів, k=1,…,r.
Складемо вираз:
.
Граничний розподіл є розподілом з r-l-1 ступенями вільності, де l – число незалежних параметрів розподілу (для нормального закону l=2).
Сформулюємо критерій :
якщо < – приймається нульова гіпотеза Н0,
якщо > – відхиляється нульова гіпотеза і приймається альтернативна гіпотеза Н1.
Приклад 3
Було проведено дослідження захворюваності на бронхіт робітників цеху залежно від звички до паління. Результати дослідження подано у таблиці:
Таблиця 22. Захворюваність на бронхіт робітників цеху
Рівні ознак |
Наявність бронхіту (у1) |
Відсутність бронхіту (у2) |
у1+у2 |
Не палить (х1) |
5 |
20 |
25 |
Кинув палити (х2) |
10 |
40 |
50 |
Палить (х3) |
15 |
10 |
25 |
х1+х2+х3 |
30 |
70 |
100 |
Формулюємо нульову гіпотезу Н0 – залежності немає.
Обираємо рівень значущості a=0,05.
За таблицею знаходимо відповілне значення критрію хі-квадрат: =5,991.
Обчислимо значення критерію : =15,950.
Оскільки >, нульову гіпотезу Н0 відхиляємо і приймаємо альтернативну гіпотезу Н1: залежність є.
t–критерій Ст’юдента
В медико-біологічних дослідженнях часто виникає задача оцінювання параметрів розподілу за малими вибірками. Для оцінювання параметрів розподілу таких вибірок використовують розподіл Ст’юдента.
Розв’язок рівняння:
для випадкової величини t розподіленої за законом Ст’юдента зступенями вільності затабульовано. Тому порівнюють значення розрахованого коефіцієнта з табличним.
Сформулюємо критерій Ст’юдента:
якщо < t – приймається нульова гіпотеза Н0,
якщо t – відхиляється нульова гіпотеза і приймається альтернативна гіпотеза Н1.
Приклад 4
Проведено дослідження залежності концентрації нейролінової кислоти в еритроцитах при хворобі крові. Результати дослідження подано у таблиці:
Таблиця 23. Залежність концентрації нейролінової кислоти в еритроцитах
Концентрація нейролінової кислоти |
|
Група здорових (х) |
Група хворих (у) |
21 |
16 |
24 |
18 |
18 |
19 |
19 |
19 |
25 |
22 |
17 |
18 |
18 |
19 |
22 |
|
Формулюємо нульову гіпотезу – чи існує залежність концентрації нейролінової кислоти в еретроцитах у хворих і здорових групах пацієнтів.
Розрахуємо:
– число ступенів вільності: ,
де , , , ;
– коефіцієнт Ст’юдента за вибірками:
.
За таблицею значень коефіцієнта Ст’юдента знаходимо відповідне значення коефіцієнта t: t=2,20.
Оскільки , робимо висновок: приймається гіпотеза Н0, тобто істотної залежності концентрації нейралінової кислоти в еритроцитах крові у групах пацієнтів немає.
Кореляційний аналіз
В ряді випадків результатом спостережень може бути значення не однієї випадкової величини, а двох (у загальному випадку декількох випадкових величин) такий розподіл називається двомірним (у загальному випадку – багатомірним), наприклад, зв’язок між віком дитини та її вагою. Кожне спостереження зображається точкою на площині координати якої є значеннями випадкових величин, що спостерігаються.
Результати спостережень можна записати у вигляді таблиці. Такі таблиці називаються кореляційними таблицями. Використовуючи кореляційні таблиці можна підрахувати коефіцієнт кореляції між двома випадковими величинами:
де (x1,y1), (x2,y2),…, (xn,yn) – випадкові величини, що спостерігаються сумісно, – середнє значення по вибірці , – вибіркова дисперсія по вибірці , – середнє значення по вибірці , – вибіркова дисперсія по вибірці .
Коефіцієнт кореляції є число, знак та величини якого характеризує напрям і силу подібного взаємозв’язку. Значення коефіцієнта кореляції може змінюватися від -1 до +1 (включаючи 0,0). Знак коефіцієнта кореляції вказує на напрям – прямий чи зворотній взаємозв’язок між двома змінними. Абсолютне значення коефіцієнта кореляції характеризує силу та щільність взаємозв’язку, що розглядається.
Зміст концепції кореляції можна з’ясувати за допомогою так званої діаграми розсіювання. При побудові цього графіка по осям координат відкладаються значення відповідних корелюючих характеристик.
Можна вважати, що експериментальні дані попадають в геометричну фігуру, котра має форму еліпса: чим менше мала вісь еліпса при одній і тій самій великій вісі, тим більше значення коефіцієнта кореляції; якщо еліпс перетворюються на коло – це означає, що стохастичний зв’язок між змінними відсутній (коефіцієнт кореляції дорівнює нулю). Якщо мала вісь еліпса прямує до нуля, має місце повна позитивна або негативна стохастична залежність.
Схематичне представлення величини та напрямку коефіцієнту кореляції в залежності від ширини еліпсу та його орієнтації на площині зображено на наступних графіках :
Рис. 32 Схематичне представлення величини та напрямку коефіцієнту кореляції
Приклад 5
Розрахувати коефіцієнт кореляції між середніми значеннями коефіцієнта розумового розвитку (IQ) батьків та їх дітей.
Таблиця 24. Розрахунок коефіцієнта кореляції
Середні значення IQ для обох батьків |
Діти |
Добуток Z–оцінок |
||
Коефіцієнт IQ |
|
Коефіцієнт IQ |
|
|
125 |
+1,63 |
110 |
+0,65 |
1,06 |
120 |
+1,30 |
105 |
+0,33 |
0,43 |
110 |
+0,65 |
95 |
-0,33 |
-0,21 |
105 |
+0,33 |
125 |
+1,63 |
0,54 |
105 |
+0,33 |
120 |
+1,30 |
0,43 |
95 |
-0,33 |
105 |
+0,33 |
-0,11 |
95 |
-0,33 |
75 |
-1,63 |
0,54 |
90 |
-0,65 |
95 |
-0,33 |
0,21 |
80 |
-1,30 |
90 |
-0,65 |
0,85 |
75 |
-1,63 |
80 |
-1,3 |
2,12 |
|
0,00 |
|
0,00 |
|
|
1,00 |
|
1,00 |
|
Висновок: по значенню , можна зробити висновок про помірну позитивну залежність коефіцієнта IQ батьків та їхніх дітей.
Регресійний аналіз
Регресійний аналіз є одним з найбільш широко використовуваних статистичних методів. У ньому задіяна велика кількість інших статистичних процедур (гіпотези про середні і дисперсії, кореляційний і дисперсійний аналіз, планування експерименту тощо) і розділи інших наук (наприклад, лінійна алгебра). Призначенням регресійного аналізу є отримання по експериментальним даним математичного рівняння (моделі), що описує поведінку деякої величини y в залежності від x :
Знаючи коефіцієнт кореляції ми можемо по величині однієї з корелюючих між собою змінних передбачити відповідне значення другої змінної.
Рівняння для Y по X має вигляд:
,
де , , , і називається рівнянням регресії (термін регресія понад 100 років тому був введений англійським статистиком Ф. Гамільтоном при вивченні спадкових ознак). Зміст поняття регресія (повернення до середнього значення) виражав характер зв’язку між ростом батьків та їхніх дітей – тенденції до середнього росту.
Якщо кореляція лінійна, то рівняння регресії можна записати наступним чином:
, ,
де , – кутові коефіцієнти регресії (рис. 33)
Рис. 33. рівняння регресії для лінійної кореляції
Приклад 6
Отримати прогноз значень коефіцієнта IQ у дітей по середнім значенням коефіцієнта IQ у батьків (коефіцієнти IQ у батьків і дітей є нормально розподіленими незалежними випадковими величинами).
Таблиця 25. Прогноз значень коефіцієнта IQ
Середні значення IQ для обох батьків |
Прогноз |
Прогноз коефіцієнта IQ у дітей |
|
Коефіцієнт IQ |
|
||
125 |
+1,63 |
+0,96 |
114,72 |
120 |
+1,30 |
+0,77 |
111,80 |
110 |
+0,65 |
+0,38 |
105,83 |
105 |
+0,33 |
+0,20 |
103,07 |
105 |
+0,33 |
+0,20 |
103,07 |
95 |
-0,33 |
-0,20 |
96,93 |
95 |
-0,33 |
-0,20 |
96,93 |
90 |
-0,65 |
-0,38 |
94,17 |
80 |
-1,30 |
-0,77 |
88,20 |
75 |
-1,63 |
-0,96 |
85,28 |
|
0,00 |
0,00 |
100 |
|
1,00 |
0,35 |
81,75 |
|
1,00 |
|
9,04 |
Результати прогнозу (стовпчик 4) ілюструє явище, яке носить назву «регресія до середнього». У стовпчику три стандартне відхилення , тобто воно дорівнює величині коефіцієнта кореляції між прогнозуючими значеннями Z-оцінок: .
Дисперсія , тобто . Вона має особливий зміст: характеризує частину дисперсії значень У, яку можна пояснити наявністю кореляції між Х і У.
Тестові завдання для самоконтролю
1. В результаті експерименту, що може бути повторений велику кількість разів, отримані значення х1, х2,…, хn, які називають:
– вибіркою
– випадковою величиною
– щільністю розподілу випадкової величини
– законом розподілу
2. Дискретною випадковою називається величина, яка приймає значення:
– з замкненого інтервалу [0;n]
– з відкритого інтервалу (0;n)
– з напівзамкненого інтервалу зліва або справа
– кінцеву кількість значень х1, х2,…, хn.
3. Величина, котра може приймати будь-які числові значення в даному інтервалі значень називається:
– дискретною випадковою величиною
– неперервною випадковою величиною
– випадковою величиною;
– параметром розподілу випадкової величини
4. Функціональна залежність між значеннями випадкових величин та ймовірностями з якими вони приймають ці значення називають:
– щільністю розподілу
– гістограмою розподілу
– медіаною розподілу
– законом розподілу
5. Щільність розподілу для неперервної випадкової величини – це:
– первісна від функції розподілу
– інтеграл від функції розподілу
– похідна від функції розподілу
– квадрат функції розподілу
6. Якому закону розподілу підпорядковуються випадкові події такі, як число викликів швидкої допомоги за певний проміжок часу, черги до лікаря в поліклініці, епідемії:
– Госсета
– Біноміальному
– Пуассона
– Гаусса
7. Які параметри має нормований нормальний закон розподілу:
– Математичне сподівання – 0, дисперсія – 1
– Математичне сподівання – 1, дисперсія – 1
– Математичне сподівання – 0, дисперсія – 0
– Математичне сподівання – 1, дисперсія – 2
8. Набір значень (х1,х2,…,хn) випадкової величини Х, котрі отримані в результаті п дослідів, називається:
– вибіркою об’єму n
– генеральною сукупністю
– дискретною випадковою величиною
– розподілом випадкової величини
9. Припущення, котрі відносяться до виду розподілу випадкової величини або окремих його параметрів є:
– функції розподілу
– щільності розподілу
– статистичні гіпотези
– параметри розподілу
10. Ймовірність з якою може бути відхилена нульова гіпотеза, коли вона є вірною, називається:
– рівень значущості
– похибкою ІІ-го роду
– довірчою ймовірністю
– похибкою експерименту
11. При проведенні досліджень необхідно забезпечити наступні вимоги до вибірки:
– структурну відповідність, однорідність
– однорідність, репрезентативність, співпадання умов спостережень
– однорідність, співпадання умов спостережень
– репрезентативність, співпадання умов спостережень
12. Нульова гіпозеза, що перевіряється за критерієм Пірсона, приймається, коли:
– >
– <
– ≥
– =
13. Нульова гіпозеза, що перевіряється за критерієм Ст’юдента, відхиляється, коли:
– < t
– t
– > t
– = t.
14. Як задається кореляційна залежність між випадковими величинами:
– у вигляді таблиць
– вибіркових значень
– матриць
– моментів І-го і ІІ-го порядку розподілу
15. Значення коефіцієнта кореляції може змінюватися від
– [-1;1)
– (-1;1)
– [-1;1]
– (-1;1]
16. Що характеризує абсолютне значення коефіцієнта кореляції стохастичного взаємозв’язку між випадковими величинами:
– силу та напрям
– напрям та щільність
– розсіювання та напрям
– силу та щільність
17. Знак коефіцієнта кореляції вказує:
– на щільність кореляції
– на напрям стохастичного зв’язку
– на силу стохастичного зв’язку
– на ступінь розсіювання між випадковими величинами
18. Діаграми розсіювання випадкових величин характеризує:
– параметри розподілу випадкових величин
– емпіричну функцію розподілу
– зміст концепції кореляції
– щільність розподілу
19. Що означає термін регресія:
– тенденцію зміни випадкових величин
– повернення до середнього значення
– нормалізація параметрів розподілу
– напрям стохастичного зв’язку
20. Який вигляд має рівняння регресії, якщо кореляційний зв’язок є лінійним:
–
–
–
–
21. Які результати прогнозу дає “регресія до середнього”:
– стандартне відхилення дорівнює коефіцієнту кореляції
– пояснює відсутність кореляційного зв’язку
– стандартне відхилення дорівнює коефіцієнту кореляції
– вказує на напрям стохастичного зв’язку
Біосигнали та їх обробка.
Всі види життя, від клітин до організмів, подають сигнали біологічного походження. Такі сигнали можуть бути електричними (наприклад, деполяризація нервової клітини або мускула серця), механічний (наприклад, звук, що генерується клапаном серця), або хімічний (наприклад, PCO2 в крові). Біологічні сигнали можуть представляти інтерес для встановлення діагнозу, для моніторингу пацієнта, і біомедичного дослідження.
Живі організми генерують великий потік сигналів, часто прихованих у фоні інших сигналів і компонентів шуму. Головна мета обробки біосигналів – відфільтрувати сигнали що нас цікавлять від фону і зменшити надмірний потік даних до декількох, але доречних параметрів. Такі параметри повинні бути істотні для медичного рішення, наприклад, вирішити медичну проблему або збільшити інтуїцію яка лежить в основі біологічного процесу. В цьому відношенні ми звертаємося до того, що було сказано про використовування даних, щоб отримати інформацію і здобути знання (рис. 34). Мета вивчення біосигналу – це простежити походження інформації від даних (сигналів).
Рис. 34. Дані про пацієнта, враховуються лікарем. Інформація отримується з даних шляхом інтерпретації. Інформація від багатьох пацієнтів повертається назад до лікаря. Шляхом індуктивних міркувань з цієї інформації одержуються нові знання, які додаються до масиву медичних знань. Ці знання використовуються для інтерпретації інших даних.
Етапи аналізу біосигналів
Обробка біосигналів звичайно складається як мінімум з чотирьох стадій (див. рис. 35):
– вимірювання або спостереження – реєстрація сигналів;
– перетворення і зміна форми сигналів – трансформація сигналів;
– обчислення діагностично-істотних параметрів сигналів;
– інтерпретація або класифікація сигналів.
Рис. 35Цикл може бути пройдений тільки один раз, наприклад, протягом консультації, або багато раз, наприклад, коли пацієнта обстежують на спеціальному обладнанні.
Рис. 36. Чотири стадії обробки біосигналу. Перші дві стадії мають справу з синтаксисом (syntax) сигналу; останні дві стадії – з семантичними (semantic) властивостями сигналу.
Реєстрація, перетворення та класифікація сигналів
На першому етапі – реєстрація сигналів – ми використовуємо перетворювачі (датчики) для отримання електричних сигналів, які можуть оброблятися комп’ютерами. На цьому етапі, хімічні або механічні сигнали перетворюються в електричні сигнали, а сигнали, які вже є електричними – вловлюються електродами. При цьому дуже важливо підтримувати ентропію сигналу на якомога нижчому рівні, тобто отримувати сигнали з незначними спотвореннями, а саме, з високим відношенням «сигнал-шум». Коли сигнали перетворені в електричну форму, їх переводять в цифрову форму для того, щоб їх можна було обробляти комп’ютером.
В другому етапі необхідно обробити сигнали таким чином, щоб у подальшому можна було отримати їх семантичні параметри. Другий етап також називають попередня обробка. Сигнали містять набагато більше даних, ніж фактично потрібно для отримання параметрів, які несуть семантичну інформацію. Це називається надлишковістю. Наприклад, щоб діагностувати блокаду лівої ніжки передсердно-шлуночкового пучку на підставі електрокардіограми (ЕКГ), лікарю достатньо мати лише від одного до трьох циклів ЕКГ, замість багатьох, що зазвичай записуються. Проте, для діагностування певних видів серцевих аритмій іноді необхідно кілька годин запису ЕКГ (наприклад, записи, отримані під час так званого хольтерівського моніторингу). Іноді надлишок даних використовується з метою усунення шуму, наприклад, за допомогою фільтрації. Іншими словами, протягом попередньої обробки або на етапі перетворення необхідно:
– зменшити перешкоди;
– зменшити обсяг даних таким чином, щоб ми змогли обчислити найбільш суттєві у діагностичному плані параметри.
На третьому етапі отримуються семантично релевантні параметри (які також називаються ознаками), які можуть бути використані як вхідні дані для подальшого прийняття рішень. Певним чином такі параметри нагадують ознаки та симптоми, що використовуються для постановці діагнозу. Такі ознаки повинні мати дискримінаційну чутливість, наприклад, для того, щоб встановити, чи пацієнт має хворобу А або Б, або чи наявна тенденція до розвитку хвороби. Ознаки отримуються шляхом іноді доволі складних методів обробки сигналів. Ці методи багато в чому схожі на методи, що використовуються при обробці зображень. Коли параметри сигналів вже отримано, вони використовуються на етапі інтерпретації для ручного або комп’ютеризованого прийняття рішень.
Біосигнали і нестаціонарні сигнали.
Біосигнали отримуються в результаті біологічних процесів, які спостерігаються в медицині. Такі процеси надзвичайно складні і динамічні. Біосигнали звичайно є (але не завжди) функцією часу. Наприклад, вони можуть виражатися як S(t), де S – сигнал, а t – час. Деякі сигнали можуть описуватися декількома параметрами. Синусоідальний сигнал S(t), наприклад, можна записати як . Трьох параметрів (амплітуда А, частота t, і фаза ) достатньо, щоб повністю описати S(t). Коли ми знаємо параметри, форма сигналу повністю визначена. Проте, коли сигнал спотворений шумами n(t) (його вид – m(t)= S(t)+ n(t) може бути передбачений, у кращому випадку, тільки статистично.
На відміну від сигналів які задаються математично, як наприклад синусоїда, біосигнали рідко описуються тільки декількома параметрами. Найчастіше вони відрізняються великою мінливістю. Характер біологічних процесів, що є джерелами сигналів, безперервно змінюється. Їх поведінку важко точно передбачити, бо параметри, що описують такі сигнали не є постійними. Наприклад, для хворого якого обстежують, параметри, що описують серцебиття і циркуляцію крові, легені і функцію дихання, формулу крові і гормональну систему можуть неперервно варіюватись. Таким чином, сигнали, отримані від таких процесів, відображають динамічний і нестаціонарний характер таких процесів.
Типи сигналів.
Детерміновані біосигнали
Біологічні процеси, що повторюється, як наприклад серцебиття або дихання, генерують сигнали, які також повторюються. Такі сигнали часто мають форму приблизно детермінованих хвиль. Детерміновані сигнали можуть бути періодичними, квазіперіодичними, неперіодичними, або просто швидкоплинними. У живих організмах немає чистих періодичних сигналів (такі сигнали визначаються тільки математично, як наприклад синусоїда). Таким чином, квазіперіодичні або навіть неперіодичні сигнали використовується частіше, щоб описати біологічний сигнал, що повторюється. Прикладом неперіодичного сигналу є сигнал, який може поступати від мерехтливих очей. Деполяризована комірка, стимульована деяким сигналом, також генерує електричний сигнал (хвиля деполяризації і реполяризації), який назвається перехідним сигналом.
Окремою групою детермінованих сигналів є точкові процеси, які можуть описуватися як серія імпульсів. Точкові процеси можуть бути представлені як двійковий сигнал, який більшість часу є «0», і, коли деяка подія відбувається – приймає значення «1». Чисто точкові процеси не генеруються біологічними системами, хоча імпульси ритмоводія в SA і вузлах серця AV могли б вважатися точковими процесами. В точкових процесах не представляє інтерес не форма сигналу, а мить, коли деяка подія відбувалася, як наприклад початок деполяризації в шлуночках, пов’язаний з активацією QRS комплексу в ЕКГ (рис. 37(a)), або момент мерехтіння ока.
Рис. 37. Точковий (b) процес, відфільтрований від сигналів ЕКГ (a).
Відфільтрований сигнал ЕКГ може відновлюватися з точкового процесу у форми хвилі тільки одного комплексу P-QRS-T.
Стохастична форма хвилі
Існує, також, група сигналів які називаються стохастичними, або статистичними сигналами. Вони генеруються, наприклад, групами клітин, які деполяризуються приблизно випадково, як наприклад клітини мускула або нервові клітини в корі (генерація електроенцефалограми (ЕЕГ) ). Форма хвилі таких сигналів є недетермінованою і може описуватися тільки статистично. Залежно від виду біологічного процесу, ці стохастичні сигнали є стаціонарними або нестаціонарними. У разі стаціонарних, властивості сигналу не змінюються з часом, наприклад, коли пацієнт знаходиться в стабільному стані.
Представляє інтерес різниця між стаціонарними і нестаціонарними сигналами. Якщо біологічний процес знаходиться в динаміці, ми можемо очікувати, що сигнали, які генеруються, також нестаціонарні. Прикладом є ЕЕГ від хворого під час епілептичного припадку. Параметри, що можуть бути отримані з нестаціонарних сигналів (наприклад, від пацієнтів, що знаходяться у палатах інтенсивного догляду) можуть бути представлені як функція часу, що має назву аналізом тенденції.
Аналого-цифрове перетворення
Всі біосигнали є аналоговими сигналами. Таким чином, перед тим, як вони зможуть оброблятися комп’ютерами, вони повинні бути перетворені в цифрову форму. Це робиться шляхом аналого-цифрового перетворення. Якщо все зроблено коректно, то інформація не втрачається, і оригінальний аналоговий сигнал можна потім відновити з цифрового шляхом цифро-аналогового перетворення.
При обробці біосигналів необхідно відповісти на два питання:
– Як часто повинна виконуватись обробка?
– Як точно доведеться визначати амплітуду?
Для правильної обробки важливо, щоб інформація не втрачалася і не спотворювалась . Дуже низька частота вимірювань може викликати втрату інформації (див рис. 38); дуже висока частота вимірювань є надмірною і не дає додаткової інформації, але вимагає більшої комп’ютерної пам’яті.
Для деяких біосигналів амплітуда повинна вимірюватися з роздільною здатністю до 1% ; для інших достатня роздільна здатність 10% . Наприклад:
– для ЕКГ, амплітуди Q-хвиль повинні вимірюватися з роздільною здатністю 20 % або менше (точніше), тому що присутність Q-хвиль може вказати на інфаркт;
– для ЕЕГ, амплітуда безпосередньо не представляє інтересу, а важливі зміни середніх значень амплітуди з часом, які можуть виявити патологію.
Рис. 38. Вплив частоти дискретизації, що є надто низькою для того, що б побачити істинну форму хвиль двох сигналів. Сигнал ЕКГ представлено на верхньому рисунку, а синусоїдальний сигнал представлено на нижньому рисунку.
Якщо сигнали не обробляються з достатньо високою частотою дискретизації і якщо амплітуди не виміряні достатньо точно, сигнали будуть спотворені і буде неможливо отримати необхідні параметри. Рисунок 5 показує результати обробки з надто низькою частотою дискретизації.
З вище сказаного можна зробити висновки:
– дискретизація аналогових змінних, як наприклад біосигналів, можлива без втрати інформації.
– частота дискретизації визначається частотним спектром сигналу і повинна бути щонайменше в два рази більшою від частоти найбільш високочастотної гармоніки сигналу.
– ступінь дискретизації визначається необхідною точністю визначення параметрів, які повинні бути отримані при обробці сигналу.
Приклади застосування аналізу біосигналів
Методи для обробки і інтерпретації біосигналів весь час еволюціонують, переважно завдяки інформаційним технологіям які постійно змінюються. Обробка біосигналів і їх інтерпретація набули широкого застосування. Наведемо декілька прикладів:
Функціональний аналіз, який робиться в діагностичних комплексах для аналізу EMG або ЕЕГ, або для ЕКГ, фонокардіограма, спірограма, і так далі.
Скринінгові дослідження. Той же вид обробки сигналу, що використовується для функціонального аналізу, зустрічається також при застосуванні біологічних сигналів у скринінгових дослідженнях.
On-line аналіз, який має місце в ситуаціях в яких за пацієнтом спостерігають у палатах інтенсивного догляду. Інший приклад on-line аналізу – це контроль за протезуванням ще непошкоджених нервів або кінцівками мускула.
Фундаментальні дослідження. Для більш глибокого дослідження, як наприклад у фізіології, обробка сигналу може використовуватися, щоб проаналізувати нейронал або деполяризацію клітини.
При розгляді біологічних процесів зустрічаються чотири різні ситуації в яких ми стикаємося з аналізом сигналів (рис. 39). Рисунок 6 показує як зростає розуміння сутності. Розглянемо чотири випадки аналізу сигналів.
Рис. 39. Чотири різні ситуації в обробці біосигналу: тільки вихідний сигнал (a), викликані сигнали (b), випробування під час стимуляції (c), і моделювання процесу (d).
Тільки вихідний сигнал. Найзагальнішою є ситуація, коли ми маємо справу з біологічним процесом, що видає тільки вихідні сигнали. Ми не знаємо нічого або тільки мінімум про процес, що є джерелом сигналу. Підхід, який використовується в аналізі таких сигналів, переважно емпіричний. Характерний приклад цієї ситуації – аналіз ЕЕГ.
Викликаний сигнал. Деякі з вхідних умов процесу, що досліджується, можуть бути вже відомими, або ми можемо навіть припустити вигляд вхідного сигналу або подразника. В ідеалі, ми навіть зможемо зазирнути у суть цього біологічного процесу. Приклади цієї ситуації – стимульовані відгуки під час дослідження ЕЕГ або механічного чи електричного стимулювання клітин, нервів чи м’язів.
Випробування під час стимуляції. Наступна ситуація передбачає перевірку перебігу біологічного процесу під дією деякого вимушеного втручання або за, як мінімум, відомими умовами. Іноді це може поєднуватися з дією відомого вхідного стимулюючого сигналу.
До цієї групи належать багато випробування під час стимуляції, як наприклад випробування при фізичному навантаженні, коли ми вимірюємо параметри ЕЕГ ST-T або параметри сигналу спірограми, аналіз ЕЕГ під час анестезії, або «atrial pacing» під час катетеризації.
Моделювання. У випадках, коли доступне достатнє знання про процес, ми повинні бути здатні розробити модель біологічного процесу, наприклад, моделювання циркуляції або серцевої деполяризації. Такі моделі використовуються під час досліджень, навчання або для оцінки параметрів сигналу. Стрілка вказує на наявність зворотного зв’язку.
Моніторинг. Багато даних поступає через перетворювачі від хворого до медсестер або лікарів як для аналізу так і для контролю. Цій потік повинен бути зменшений та задокументований. Для цих цілей використовується комп’ютер.
Сигнали надають дані для підтримки реєстрації медичних рішень і аналізу тенденцій. Реєстрації рішень засноване на об’єктивних і кількісних вимірюваннях, а не на суб’єктивних спостереженнях. Біосигнали є прикладами об’єктивних вимірювань, які можуть використовуватися як вхідні для втручання під час моніторингу. Збільшення об’єктивності може привести до зниження людських помилок.
Питання для самоконтролю
1. Які сигнали подають клітини та організми?
2. Яка головна мета обробки біосигналів?
3. Яка мета вивчення біосигналів?
4. Із скількох стадій звичайно складається обробка біосигналів
5. Яка із стадій не є обробкою біосигналів?
6. Що треба зробити протягом попередньої обробки або стадії перетворення сигналів?
7. Які сигнали не можуть бути детермінованими?
8. Чи є в житті організмів чисті періодичні сигнали?
9. Який характер мають форми хвиль статистичних сигналів?
10. В яку форму мають перетворюватись біосигнали перед тим, як вони зможуть оброблятися комп’ютерами?