Основні інструменти аналізу даних: міри центральної тенденції, перевірка гіпотез, довірчі інтервали, регресія та байєсівський підхід.
1. Описова статистика
Дані: x₁, x₂, …, xₙ
Середнє арифметичне: x̄ = (1/n) Σxᵢ
Медіана: середнє значення при впорядкованому ряді
(стійка до викидів!: [1,2,3,100] → медіана=2.5, x̄=26.5)
Мода: найчастіше значення
Дисперсія (вибіркова):
s² = 1/(n-1) · Σ(xᵢ - x̄)² (незміщена оцінка)
Стандартне відхилення: s = √s²
Коефіцієнт варіації: CV = s/x̄ · 100%
IQR = Q₃ - Q₁ (міжквартильний розмах — для box plot)
2. Теорема про центральний граничний розподіл
Ключовий результат статистики: сума (або середнє) великої кількості незалежних однаково розподілених випадкових величин є приблизно нормально розподіленою.
Нехай X₁,…,Xₙ — н.о.р. з E[X]=μ, Var(X)=σ²
Тоді вибіркове середнє X̄ = (X₁+…+Xₙ)/n:
E[X̄] = μ
Var(X̄) = σ²/n
SE = σ/√n (стандартна похибка)
ЦГТ: при n→∞:
(X̄ - μ)/(σ/√n) → N(0,1)
Практично: n≥30 вважається достатнім
для більшості розподілів.
3. Довірчі інтервали
95% довірчий інтервал для μ (при відомій σ):
x̄ ± 1.96 · σ/√n
При невідомій σ (замінюємо на s, t-розподіл):
x̄ ± t(α/2, n-1) · s/√n
Значення z для типових рівнів довіри:
90%: z = 1.645
95%: z = 1.960
99%: z = 2.576
Важливо: «95% ДІ» означає, що
95% таких інтервалів (при повторних вибірках)
містять справжнє μ — не що μ∈ДІ з P=0.95!
4. Перевірка гіпотез
H₀ (нульова гіпотеза) vs H₁ (альтернативна)
Статистична значущість: рівень α = 0.05 (5%)
Помилки:
• Помилка I роду (α): відкинути правильну H₀
• Помилка II роду (β): прийняти хибну H₀
• Потужність тесту = 1-β
p-значення: ймовірність отримати такий або більш
екстремальний результат, якщо H₀ правильна.
Рішення:
• p < α → відкидаємо H₀ (статистично значуще)
• p ≥ α → немає підстав відкинути H₀
Увага: p > 0.05 ≠ H₀ правильна!
5. t-тест і χ²-тест
Одновибірковий t-тест (H₀: μ = μ₀):
t = (x̄ - μ₀) / (s/√n), df = n-1
Двовибірковий t-тест (H₀: μ₁ = μ₂):
t = (x̄₁ - x̄₂) / √(sp²·(1/n₁+1/n₂))
sp² = ((n₁-1)s₁² + (n₂-1)s₂²) / (n₁+n₂-2)
χ²-тест на незалежність (таблиця r×c):
χ² = Σ (Oᵢⱼ - Eᵢⱼ)² / Eᵢⱼ
df = (r-1)(c-1)
де Eᵢⱼ = (рядок_сума · стовп_сума) / n
Приклад: t-тест Нова таблетка знижує тиск на x̄=5ммHg, s=8, n=64. H₀: μ=0. t = 5/(8/8) = 5.0 df=63 p ≈ 0.000004 < 0.05 → Ефект статистично значущий.
6. Лінійна регресія
Проста лінійна регресія: ŷ = β₀ + β₁·x
Метод найменших квадратів:
β₁ = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)² = Cov(X,Y)/Var(X)
β₀ = ȳ - β₁·x̄
Коефіцієнт детермінації:
R² = 1 - SSres/SStot ∈ [0,1]
SSres = Σ(yᵢ-ŷᵢ)², SStot = Σ(yᵢ-ȳ)²
R² = 0.85: 85% дисперсії y пояснюється x
Коефіцієнт кореляції:
r = Cov(X,Y) / (σₓ·σᵧ) ∈ [-1, 1]
Зв'язок: R² = r² (для простої регресії)
⚠️ Кореляція ≠ причинно-наслідковий зв'язок! Продажі морозива і кількість потоплень — сильна кореляція (спільна причина: спека).
7. ANOVA (дисперсійний аналіз)
Однофакторна ANOVA (k груп, H₀: μ₁=…=μₖ):
SSbetween = Σ nⱼ(ȳⱼ-ȳ)² df = k-1
SSwithin = ΣΣ(yᵢⱼ-ȳⱼ)² df = N-k
F = (SSbetween/dfbetween) / (SSwithin/dfwithin)
= MSbetween / MSwithin
При H₀: F ~ F(k-1, N-k)
p < 0.05 → різниця між групами є, але
ANOVA не скаже де! → post-hoc тест (Tukey, Bonferroni)
8. Байєсівська vs частотна статистика
Байєсівська теорема:
P(H|D) = P(D|H) · P(H) / P(D)
(posterior) ∝ (likelihood) × (prior)
Частотна (classical):
• θ — фіксований, невідомий параметр
• Дані — випадкові
• p-значення = P(дані | H₀ правильна)
Байєсівська:
• θ — випадкова величина зі своїм розподілом
• Оновлюємо переконання (prior → posterior)
• P(θ ∈ [a,b] | дані) = буквально те, що й здається!
Кредитні інтервали (Bayesian credible intervals):
"з 95% ймовірністю θ ∈ [a,b]" — за байєсом!
Про цю статтю
Ця стаття є частиною бази знань calculator.party — освітнього ресурсу, що поєднує теорію з практичними інструментами. Матеріал орієнтований на студентів, учнів і фахівців, що прагнуть глибокого розуміння теми. Тут зібрані ключові концепції, формули та реальні приклади застосування.
Статистика — мова даних. Без неї неможливі медичні дослідження, соціологія, фінанси, Data Science та державне управління. Вміння читати та інтерпретувати статистику є ключовою навичкою XXI ст.
Навіщо читати цю статтю
Після прочитання ви зможете впевнено пояснити тему, вирішувати практичні задачі та застосовувати знання у навчанні й роботі. Стаття охоплює теоретичне підґрунтя і числові приклади, що полегшують запам'ятовування матеріалу.
Часті запитання (FAQ)
Що таке Математична статистика: від описової до байєсівської і чому це важливо знати?
Математична статистика: від описової до байєсівської — ключова тема в науки про дані. Розуміння її основ дає змогу вирішувати практичні задачі, успішно складати іспити та застосовувати знання в реальних ситуаціях. Стаття розкриває концепцію доступними словами з конкретними прикладами.
Які ключові формули та методи використовуються в математична статистика: від описової до байєсівської?
Основні формули та методи для математична статистика: від описової до байєсівської охоплюють як аналітичні підходи, так і числові алгоритми. У статті наведені всі ключові вирази з поясненням кожного позначення та вказівкою одиниць вимірювання.
Де в реальному житті застосовується математична статистика: від описової до байєсівської?
Сфери застосування математична статистика: від описової до байєсівської надзвичайно широкі: медицині (клінічні дослідження), соціології (опитування), бізнесі (аналіз даних), інженерії (контроль якості). Знання цієї теми відкриває кар'єрні можливості в інженерії, науці, фінансах та IT-галузі.
Як розрахувати математична статистика: від описової до байєсівської онлайн?
На calculator.party є безкоштовні онлайн-калькулятори з тематики 'Математична статистика: від описової до байєсівської'. Достатньо ввести вхідні дані — і ви миттєво отримаєте точний результат з покроковим поясненням. Це ідеально для перевірки ручних розрахунків.
Яка різниця між математична статистика: від описової до байєсівської та суміжними темами?
Стаття чітко описує межі тематики 'Математична статистика: від описової до байєсівської', порівнюючи її з близькими поняттями. Чітке розуміння відмінностей допомагає уникнути типових помилок та плутанини при розв'язанні задач.