← Блог · 💻 Data Science

Математика за машинним навчанням: від лінійної регресії до нейронних мереж

🧮
Калькулятор кореляції Аналізуйте зв'язки між ознаками в задачах машинного навчання.
Відкрити →

ChatGPT, розпізнавання облич, рекомендаційні системи — за всім цим стоїть математика. Тут пояснюємо її без зайвої складності.

1. Які розділи математики потрібні для ML?

Машинне навчання — це перетин трьох математичних дисциплін:

💡 Хороша новина: для практики ML достатньо основ кожного з цих розділів. Глибоку теорію — для дослідників і тих, хто розробляє нові алгоритми.

2. Лінійна регресія — перше знайомство з ML

Лінійна регресія передбачає значення y за вхідними ознаками x. Для однієї змінної:

ŷ = w₀ + w₁·x₁ + w₂·x₂ + ... + wₙ·xₙ = wᵀx

Де w — вектор ваг (параметрів), x — вектор ознак (features). Ціль — знайти w, при яких прогноз ŷ максимально близький до реальних значень y.

Метод найменших квадратів (МНК)

Вибираємо w, що мінімізують суму квадратів помилок:

L(w) = (1/m) Σ (ŷᵢ − yᵢ)² = MSE (Mean Squared Error)

Аналітичне рішення (нормальні рівняння):

w* = (XᵀX)⁻¹ · Xᵀy

Де X — матриця ознак (m × n), y — вектор цільових значень. При великих даних (n > 10⁴) матрична інверсія дорога — тоді застосовується градієнтний спуск.

3. Градієнтний спуск — основний алгоритм оптимізації

Ідея: йти в напрямку, протилежному градієнту функції втрат — "вниз по горі".

w := w − α · ∇L(w)

Де α — крок навчання (learning rate), ∇L(w) — градієнт функції втрат по w.

ВаріантКожну ітераціюПереваги/Недоліки
Batch GDВсі m зразківТочний, але повільний при великих даних
SGD1 зразокШвидкий, але зашумлений
Mini-batch GD32–256 зразківКомпроміс — стандарт у deep learning
AdamMini-batch + адаптивний αНайпопулярніший в нейромережах

4. Логістична регресія і класифікація

Для бінарної класифікації використовується сигмоїдна функція, яка перетворює будь-яке число у ймовірність від 0 до 1:

σ(z) = 1 / (1 + e⁻ᶻ)   де z = wᵀx

Функція втрат — крос-ентропія (Log Loss):

L(w) = −(1/m) Σ [yᵢ log(ŷᵢ) + (1−yᵢ) log(1−ŷᵢ)]

📐 Крос-ентропія походить з теорії інформації: H(p,q) = −Σ p(x) log q(x). Вона каже, наскільки розподіл прогнозів q відрізняється від реального p.

5. Нейронні мережі: матриці у дії

Відраховуємо від вхідного шару: кожен нейрон — лінійна комбінація + функція активації.

a⁽ˡ⁾ = f(W⁽ˡ⁾ · a⁽ˡ⁻¹⁾ + b⁽ˡ⁾)

Де W — матриця ваг, b — вектор зміщень (bias), f — функція активації.

ФункціяФормулаДе використовується
ReLUmax(0, x)Прихований шар CNN, MLP
Sigmoid1/(1+e⁻ˣ)Бінарний вихідний шар
Softmaxeˣⁱ / ΣeˣʲБагатокласовий вихідний шар
Tanh(eˣ−e⁻ˣ)/(eˣ+e⁻ˣ)RNN, LSTM
GELUx·Φ(x)Трансформери (BERT, GPT)

6. Зворотне поширення (Backpropagation)

Алгоритм навчання нейронних мереж — це застосування правила ланцюжка для обчислення похідних функцій втрат по кожному вагу:

∂L/∂W⁽ˡ⁾ = (∂L/∂a⁽ˡ⁾) · (∂a⁽ˡ⁾/∂W⁽ˡ⁾) Правило ланцюжка: dz/dx = (dz/dy)·(dy/dx)

За допомогою backprop обчислюються всі ∂L/∂wᵢ одним проходом мережі назад — алгоритм, без якого сучасний DL був би неможливий.

7. Теорема Байєса в ML

Байєсівські методи дозволяють включити апріорні знання в модель:

P(θ | X) = P(X | θ) · P(θ) / P(X) posterior = likelihood × prior / normalisation

Застосовується в: наївному класифікаторі Байєса, гаусівських процесах, Байєсівських нейронних мережах, оцінюванні невизначеності в прогнозах.

FAQ: математика ML

Чи потрібна лінійна алгебра для ML на Python?
Практично — numpy автоматично робить матричні операції. Але розуміння того, що відбувається за лаштунками, допомагає дебажити моделі, обирати архітектуру та інтерпретувати результати. Рекомендуємо вивчити основи: вектори, матричне множення, власні значення.
Яке значення learning rate обрати?
Занадто великий α → модель не збігається (розходиться). Занадто малий → навчання дуже повільне. Типовий початковий діапазон: 10⁻⁴ – 10⁻². Сучасний підхід — використовувати адаптивні оптимізатори (Adam, AdaGrad) і Learning Rate Scheduler.
Що таке функція втрат і навіщо вона?
Функція втрат (loss function) — числова оцінка того, наскільки погано модель помиляється. Навчання = мінімізація функції втрат через підбір ваг. MSE застосовується для регресії; крос-ентропія — для класифікації.
Чи потрібне знання математичного аналізу для ML?
Мінімум: розуміти, що таке похідна і градієнт. Для глибшого розуміння: часткові похідні, правило ланцюжка, оптимальні умови (∇L = 0). Для автоматичного диференціювання (PyTorch, JAX) достатньо базового знання.

Про цю статтю

Ця стаття є частиною бази знань calculator.party — освітнього ресурсу, що поєднує теорію з практичними інструментами. Матеріал орієнтований на студентів, учнів і фахівців, що прагнуть глибокого розуміння теми. Тут зібрані ключові концепції, формули та реальні приклади застосування.

Математичний аналіз — мова природничих наук. Диференціальне та інтегральне числення дозволяють описувати рух, зміни, накопичення та оптимізацію. Без цих інструментів неможливі сучасна фізика, інженерія, економіка та машинне навчання.

Навіщо читати цю статтю

Після прочитання ви зможете впевнено пояснити тему, вирішувати практичні задачі та застосовувати знання у навчанні й роботі. Стаття охоплює теоретичне підґрунтя і числові приклади, що полегшують запам'ятовування матеріалу.

Часті запитання (FAQ)

Що таке Математика за машинним навчанням: від лінійної регресії до нейронних мереж і чому це важливо знати?
Математика за машинним навчанням: від лінійної регресії до нейронних мереж — ключова тема в математики та природничих науках. Розуміння її основ дає змогу вирішувати практичні задачі, успішно складати іспити та застосовувати знання в реальних ситуаціях. Стаття розкриває концепцію доступними словами з конкретними прикладами.
Які ключові формули та методи використовуються в математика за машинним навчанням: від лінійної регресії до нейронних мереж?
Основні формули та методи для математика за машинним навчанням: від лінійної регресії до нейронних мереж охоплюють як аналітичні підходи, так і числові алгоритми. У статті наведені всі ключові вирази з поясненням кожного позначення та вказівкою одиниць вимірювання.
Де в реальному житті застосовується математика за машинним навчанням: від лінійної регресії до нейронних мереж?
Сфери застосування математика за машинним навчанням: від лінійної регресії до нейронних мереж надзвичайно широкі: фізиці (рух, хвилі), інженерії (оптимізація, моделювання), економіці (граничні витрати), медицині (фармакокінетика) та ComputerScience (градієнтний спуск у ML). Знання цієї теми відкриває кар'єрні можливості в інженерії, науці, фінансах та IT-галузі.
Як розрахувати математика за машинним навчанням: від лінійної регресії до нейронних мереж онлайн?
На calculator.party є безкоштовні онлайн-калькулятори з тематики 'Математика за машинним навчанням: від лінійної регресії до нейронних мереж'. Достатньо ввести вхідні дані — і ви миттєво отримаєте точний результат з покроковим поясненням. Це ідеально для перевірки ручних розрахунків.
Яка різниця між математика за машинним навчанням: від лінійної регресії до нейронних мереж та суміжними темами?
Стаття чітко описує межі тематики 'Математика за машинним навчанням: від лінійної регресії до нейронних мереж', порівнюючи її з близькими поняттями. Чітке розуміння відмінностей допомагає уникнути типових помилок та плутанини при розв'язанні задач.