Байєсівська статистика: теорема Байєса, апріорний розподіл, MCMC

Стандартна (частотна) статистика запитує: «Яка ймовірність отримати ці дані, якщо гіпотеза правдива?» Байєсівська статистика — сміливіша: «Яка ймовірність того, що гіпотеза правдива, враховуючи ці дані?» Ця відмінність — не семантична. Це принципово різний спосіб мислення про невизначеність.

1. Теорема Байєса

Томас Байєс (1702–1761) сформулював правило оновлення переконань при надходженні нових даних:

Теорема Байєса: P(H | E) = P(E | H) · P(H) / P(E) де: P(H | E) — апостеріорна ймовірність (після даних E) P(E | H) — функція правдоподібності (likelihood) P(H) — апріорна ймовірність (до даних) P(E) — маргінальна ймовірність (нормуючий множник) P(E) = Σ P(E | Hᵢ) · P(Hᵢ) (закон повної ймовірності) Компактний запис: Posterior ∝ Likelihood × Prior

🧠

Prior P(H)

Ваше початкове переконання до отримання нових даних

📊

Likelihood P(E|H)

Наскільки ймовірне спостереження E, якщо H правдиве

🎯

Posterior P(H|E)

Оновлене переконання після спостереження E

2. Класичний приклад — медичний тест

Тест на хворобу: чутливість 99% (P(+|хворий)=0,99), специфічність 99% (P(−|здоровий)=0,99). Поширеність хвороби: 0,1% (P(хворий)=0,001). Якщо тест позитивний — яка ймовірність справжньої хвороби?

// Дані P(+|хворий) = 0,99 (чутливість) P(+|здоровий) = 0,01 (1 − специфічність) P(хворий) = 0,001 P(здоровий) = 0,999 // Закон повної ймовірності P(+) = 0,99×0,001 + 0,01×0,999 = 0,000990 + 0,009990 = 0,010980 // Теорема Байєса P(хворий|+) = 0,99 × 0,001 / 0,010980 = 0,000990 / 0,010980 ≈ 0,0902 ≈ 9%! // Висновок: попри дуже точний тест — // лише ~9% позитивних результатів справжні! // Причина: хвороба рідкісна (base rate fallacy)

💡 Цей парадокс — «хибнопозитивний парадокс» — показує чому при скринінгу рідкісних хвороб потрібен підтверджуючий тест.

3. Байєсівський висновок: оцінка параметра

На відміну від частотної статистики (точечна оцінка + довірчий інтервал), байєсівська дає розподіл параметра θ з урахуванням даних:

p(θ | data) ∝ L(data | θ) · p(θ) // Приклад: монета з невідомою p(орел) = θ Prior: θ ~ Beta(α₀, β₀) (кон'югований prior) Дані: k орлів з n підкидань Posterior: θ ~ Beta(α₀+k, β₀+n−k) // У випадку кон'югованих пар prior-likelihood // posterior — того ж сімейства → аналітично! Приклад: α₀=β₀=1 (рівномірний prior), 7 орлів з 10: Posterior: Beta(1+7, 1+3) = Beta(8, 4) E[θ] = 8/(8+4) = 0,667 Bayesian CI (95%): [0,35; 0,91]

4. Байєс vs Частотна статистика

Питання	Частотна	Байєсівська
Що є випадковим?	Дані (при фіксованому θ)	Параметр θ (при фіксованих даних)
Результат	Точечна + p-value	Апостеріорний розподіл p(θ\|data)
Prior знання	Не використовується	Явно включається як P(θ)
Інтерпретація CI	95% CI: «при повторенні 95% CI містять θ»	95% Credible Interval: P(θ∈I\|data) = 0,95
Слабкість	p-value легко зловживати	Вибір prior суб'єктивний

5. MCMC — Марковські ланцюги Монте-Карло

Для складних моделей апостеріорний розподіл аналітично не виражається. MCMC — сімейство алгоритмів для семплювання з цього розподілу:

// Алгоритм Метрополіса-Гастінгса 1. Починаємо з θ⁽⁰⁾ (початкове значення) 2. На кроці t пропонуємо θ* ~ q(θ*|θ⁽ᵗ⁾) (proposal) 3. Обчислюємо коефіцієнт приймання: α = min(1, p(θ*|data)·q(θ⁽ᵗ⁾|θ*) / [p(θ⁽ᵗ⁾|data)·q(θ*|θ⁽ᵗ⁾)]) 4. Приймаємо θ⁽ᵗ⁺¹⁾ = θ* з ймовірністю α інакше θ⁽ᵗ⁺¹⁾ = θ⁽ᵗ⁾ 5. Повторюємо N разів → ланцюг збігається до p(θ|data) // Сучасні варіанти: HMC (Hamiltonian MC) — Stan, PyMC3, NumPyro NUTS (No U-Turn Sampler) — автоматичний HMC в Stan/PyMC Variational Inference — апроксимація posterior простою q(θ)

Застосування в наш час

Байєсівський підхід пронизує сучасну науку і техніку: А/В тестування (Optimizely Bayesian), spam-фільтри (наïвний Байєс), медична діагностика та клінічні випробування (FDA Bayesian adaptive trials), GPT-моделі (Bayesian scaling laws), а також рекомендаційні системи Netflix/Spotify і детектування гравітаційних хвиль LIGO.

Поширені питання

Що таке «кон'югований prior» і чому він зручний?

Кон'югований prior — це такий Prior, при якому Posterior має те ж математичне сімейство розподілів. Наприклад: Beta prior + Binomial likelihood = Beta posterior. Це дозволяє оновлювати параметри аналітично, без чисельних методів. Інші кон'юговані пари: Gamma-Poisson, Normal-Normal, Dirichlet-Multinomial.

Як вибрати «правильний» prior?

Вибір prior — одне з центральних питань байєсівської статистики. Підходи: 1) Інформативний prior — використовує попередні знання (результати попередніх досліджень). 2) Слабоінформативний prior — широкий розподіл, що лише обмежує нефізичні значення. 3) Jeffreys prior — інваріантний до параметризації. При великому обсязі даних prior «заглушується» і результат мало залежить від його вибору.

Чим байєсівський довірчий інтервал (credible interval) кращий за частотний (CI)?

Байєсівський 95% credible interval означає рівно те, що більшість людей хочуть почути: «З 95% ймовірністю параметр θ знаходиться в цьому інтервалі — з урахуванням даних». Частотний 95% CI означає лише: «Якби ми повторили це дослідження нескінченно разів, в 95% випадків побудований CI покрив би справжній параметр» — щось, що важко зрозуміти інтуїтивно.

Про цю статтю

Ця стаття є частиною бази знань calculator.party — освітнього ресурсу, що поєднує теорію з практичними інструментами. Матеріал орієнтований на студентів, учнів і фахівців, що прагнуть глибокого розуміння теми. Тут зібрані ключові концепції, формули та реальні приклади застосування.

Статистика — мова даних. Без неї неможливі медичні дослідження, соціологія, фінанси, Data Science та державне управління. Вміння читати та інтерпретувати статистику є ключовою навичкою XXI ст.

Навіщо читати цю статтю

Після прочитання ви зможете впевнено пояснити тему, вирішувати практичні задачі та застосовувати знання у навчанні й роботі. Стаття охоплює теоретичне підґрунтя і числові приклади, що полегшують запам'ятовування матеріалу.

Часті запитання (FAQ)

Що таке Байєсівська статистика і чому це важливо знати?

Байєсівська статистика — ключова тема в науки про дані. Розуміння її основ дає змогу вирішувати практичні задачі, успішно складати іспити та застосовувати знання в реальних ситуаціях. Стаття розкриває концепцію доступними словами з конкретними прикладами.

Які ключові формули та методи використовуються в байєсівська статистика?

Основні формули та методи для байєсівська статистика охоплюють як аналітичні підходи, так і числові алгоритми. У статті наведені всі ключові вирази з поясненням кожного позначення та вказівкою одиниць вимірювання.

Де в реальному житті застосовується байєсівська статистика?

Сфери застосування байєсівська статистика надзвичайно широкі: медицині (клінічні дослідження), соціології (опитування), бізнесі (аналіз даних), інженерії (контроль якості). Знання цієї теми відкриває кар'єрні можливості в інженерії, науці, фінансах та IT-галузі.

Як розрахувати байєсівська статистика онлайн?

На calculator.party є безкоштовні онлайн-калькулятори з тематики 'Байєсівська статистика'. Достатньо ввести вхідні дані — і ви миттєво отримаєте точний результат з покроковим поясненням. Це ідеально для перевірки ручних розрахунків.

Яка різниця між байєсівська статистика та суміжними темами?

Стаття чітко описує межі тематики 'Байєсівська статистика', порівнюючи її з близькими поняттями. Чітке розуміння відмінностей допомагає уникнути типових помилок та плутанини при розв'язанні задач.