Математика машинного навчання: градієнтний спуск, нейромережі, регресія

Машинне навчання (ML) — це не чорна магія. За кожним алгоритмом стоять прозорі математичні ідеї: функція втрат, оптимізація, лінійна алгебра матриць ваг. Розберімо фундаментальну математику ML від лінійної регресії до нейронних мереж.

1. Лінійна регресія і функція втрат MSE

Найпростіший ML-алгоритм: знайти пряму ŷ = w·x + b, що найкраще апроксимує дані.

// Модель ŷᵢ = w·xᵢ + b (передбачення для і-го прикладу) // Функція втрат MSE (Mean Squared Error) L(w, b) = (1/n)·Σᵢ (yᵢ − ŷᵢ)² = (1/n)·Σᵢ (yᵢ − w·xᵢ − b)² // Аналітичне рішення (МНК — метод найменших квадратів) w = [Σ(xᵢ−x̄)(yᵢ−ȳ)] / [Σ(xᵢ−x̄)²] b = ȳ − w·x̄

2. Градієнтний спуск

Для складних моделей аналітичне рішення неможливе. Ітеративний алгоритм градієнтного спуску рухається «під гору» функції втрат, роблячи маленькі кроки у напрямку від'ємного градієнту:

// Оновлення параметрів w ← w − η · ∂L/∂w b ← b − η · ∂L/∂b де η (eta) — швидкість навчання (learning rate) // Градієнти для MSE ∂L/∂w = (−2/n)·Σ xᵢ·(yᵢ − ŷᵢ) ∂L/∂b = (−2/n)·Σ (yᵢ − ŷᵢ) // Варіанти GD: Batch GD — на всіх n прикладах одразу (точно, повільно) Stochastic GD — на 1 прикладі (швидко, шумно) Mini-batch GD — на k прикладах (оптимальний баланс)

3. Логістична регресія — класифікація

Для бінарної класифікації (0 або 1) виводимо ймовірність класу через сигмоїду, а функцією втрат стає крос-ентропія:

// Сигмоїдна функція σ(z) = 1 / (1 + e^(−z)) ∈ (0, 1) z = w·x + b // Функція втрат: двійкова крос-ентропія (BCE) L = −(1/n)·Σ [yᵢ·log(ŷᵢ) + (1−yᵢ)·log(1−ŷᵢ)] // Градієнт BCE простий: ∂L/∂w = (1/n)·Σ xᵢ·(ŷᵢ − yᵢ) ∂L/∂b = (1/n)·Σ (ŷᵢ − yᵢ)

4. Нейронні мережі: вперед-прохід

Нейронна мережа — це стек лінійних перетворень, розділених нелінійними функціями активації. Для L-шарової мережі вперед-прохід (forward pass):

// Для кожного шару l = 1, ..., L Z[l] = W[l] · A[l-1] + b[l] (лінійна комбінація) A[l] = g[l](Z[l]) (функція активації) де W[l] — матриця ваг шару l (розмір: n[l] × n[l-1]) b[l] — вектор зсуву шару l (розмір: n[l] × 1) A[0] = X (вхідні дані) // Вихідний шар (класифікація): ŷ = softmax(Z[L]) = e^(Z[L]) / Σ e^(Z[L])

5. Функції активації

Sigmoid σ

1/(1+e^(-z))

Вих.: (0,1). Ванішінг градієнт. Для виходу в бінарній класифікації.

Tanh

(e^z−e^(-z))/(e^z+e^(-z))

Вих.: (−1,1). Краще ніж sigmoid для прихованих шарів.

ReLU

max(0, z)

Найпопулярніша. Немає ванішінгу. «Мертві нейрони» при z<0.

Softmax

e^zᵢ / Σ e^zⱼ

Вихідний шар мультикласифікації. Сума виходів = 1.

6. Backpropagation — алгоритм зворотного поширення

Backprop — алгоритм ефективного обчислення градієнтів через правило ланцюжка. Для двошарової мережі:

// Зворотний прохід (backward pass) dZ[L] = A[L] − Y (похідна втрат) dW[L] = (1/m) · dZ[L] · A[L-1]ᵀ db[L] = (1/m) · Σ dZ[L] // Для прихованих шарів l угору: dA[l-1] = W[l]ᵀ · dZ[l] dZ[l-1] = dA[l-1] * g'[l-1](Z[l-1]) (поелементно) dW[l-1] = (1/m) · dZ[l-1] · A[l-2]ᵀ db[l-1] = (1/m) · Σ dZ[l-1] // Оновлення ваг W[l] ← W[l] − η · dW[l] b[l] ← b[l] − η · db[l]

7. Регуляризація і переобучення

Метод	Модифікація функції втрат	Ефект
L2 (Ridge)	L + λ·Σ w²	Виштовхує ваги до нуля, плавно
L1 (Lasso)	L + λ·Σ\|w\|	Розріджує ваги (деякі = 0)
Dropout	Вимикає нейрони з prob p в навчанні	Ансамблевий ефект
Batch Norm	Нормалізує Z[l] на мінібатчі	Стабілізує навчання

Поширені питання

Що таке «vanishing gradient» і чому це проблема?

При backprop градієнт множиться на похідну активаційної функції. Для sigmoid: σ' = σ(1-σ) ≤ 0,25. У глибокій мережі з 10 шарів: 0,25¹⁰ ≈ 10⁻⁶ — градієнт практично зникає, ранні шари не навчаються. ReLU вирішує проблему, бо ReLU' = 1 при z>0.

Яка різниця між L1 і L2 регуляризацією?

L2 (Ridge) штрафує за квадрат ваг — ваги зменшуються, але ніколи не стають рівно нулем. L1 (Lasso) штрафує за модуль — може обнуляти ваги, викликаючи розрідженість (sparsity). L1 корисна для відбору ознак, L2 — для запобігання великим вагам.

Що таке learning rate і як його підбирати?

Learning rate η визначає крок оновлення параметрів. Занадто великий — алгоритм розходиться. Занадто малий — навчання дуже повільне. Сучасний підхід: адаптивні оптимізатори (Adam, RMSprop) автоматично регулюють η для кожного параметра. Пошук η: стартуйте із η=0,001, зменшуйте при платo.

Про цю статтю

Ця стаття є частиною бази знань calculator.party — освітнього ресурсу, що поєднує теорію з практичними інструментами. Матеріал орієнтований на студентів, учнів і фахівців, що прагнуть глибокого розуміння теми. Тут зібрані ключові концепції, формули та реальні приклади застосування.

Нейронаука вивчає найскладніший об'єкт відомого нам Всесвіту — людський мозок. Розуміння нейронів, синапсів і нейронних мереж відкриває шляхи до лікування хвороб Альцгеймера, депресії та розробки штучного інтелекту.

Навіщо читати цю статтю

Після прочитання ви зможете впевнено пояснити тему, вирішувати практичні задачі та застосовувати знання у навчанні й роботі. Стаття охоплює теоретичне підґрунтя і числові приклади, що полегшують запам'ятовування матеріалу.

Часті запитання (FAQ)

Що таке Математика машинного навчання і чому це важливо знати?

Математика машинного навчання — ключова тема в нейронаук та медицини. Розуміння її основ дає змогу вирішувати практичні задачі, успішно складати іспити та застосовувати знання в реальних ситуаціях. Стаття розкриває концепцію доступними словами з конкретними прикладами.

Які ключові формули та методи використовуються в математика машинного навчання?

Основні формули та методи для математика машинного навчання охоплюють як аналітичні підходи, так і числові алгоритми. У статті наведені всі ключові вирази з поясненням кожного позначення та вказівкою одиниць вимірювання.

Де в реальному житті застосовується математика машинного навчання?

Сфери застосування математика машинного навчання надзвичайно широкі: психіатрії та неврології, розробці BCI-інтерфейсів, штучному інтелекті та педагогіці. Знання цієї теми відкриває кар'єрні можливості в інженерії, науці, фінансах та IT-галузі.

Як розрахувати математика машинного навчання онлайн?

На calculator.party є безкоштовні онлайн-калькулятори з тематики 'Математика машинного навчання'. Достатньо ввести вхідні дані — і ви миттєво отримаєте точний результат з покроковим поясненням. Це ідеально для перевірки ручних розрахунків.

Яка різниця між математика машинного навчання та суміжними темами?

Стаття чітко описує межі тематики 'Математика машинного навчання', порівнюючи її з близькими поняттями. Чітке розуміння відмінностей допомагає уникнути типових помилок та плутанини при розв'язанні задач.