1. Які розділи математики потрібні для ML?
Машинне навчання — це перетин трьох математичних дисциплін:
- Лінійна алгебра — вектори, матриці, перетворення, розкладання (SVD, PCA)
- Математичний аналіз і оптимізація — похідні, градієнти, мінімізація функцій
- Теорія ймовірностей і статистика — нормальний розподіл, теорема Байєса, довірчі інтервали
💡 Хороша новина: для практики ML достатньо основ кожного з цих розділів. Глибоку теорію — для дослідників і тих, хто розробляє нові алгоритми.
2. Лінійна регресія — перше знайомство з ML
Лінійна регресія передбачає значення y за вхідними ознаками x. Для однієї змінної:
Де w — вектор ваг (параметрів), x — вектор ознак (features). Ціль — знайти w, при яких прогноз ŷ максимально близький до реальних значень y.
Метод найменших квадратів (МНК)
Вибираємо w, що мінімізують суму квадратів помилок:
Аналітичне рішення (нормальні рівняння):
Де X — матриця ознак (m × n), y — вектор цільових значень. При великих даних (n > 10⁴) матрична інверсія дорога — тоді застосовується градієнтний спуск.
3. Градієнтний спуск — основний алгоритм оптимізації
Ідея: йти в напрямку, протилежному градієнту функції втрат — "вниз по горі".
Де α — крок навчання (learning rate), ∇L(w) — градієнт функції втрат по w.
| Варіант | Кожну ітерацію | Переваги/Недоліки |
|---|---|---|
| Batch GD | Всі m зразків | Точний, але повільний при великих даних |
| SGD | 1 зразок | Швидкий, але зашумлений |
| Mini-batch GD | 32–256 зразків | Компроміс — стандарт у deep learning |
| Adam | Mini-batch + адаптивний α | Найпопулярніший в нейромережах |
4. Логістична регресія і класифікація
Для бінарної класифікації використовується сигмоїдна функція, яка перетворює будь-яке число у ймовірність від 0 до 1:
Функція втрат — крос-ентропія (Log Loss):
📐 Крос-ентропія походить з теорії інформації: H(p,q) = −Σ p(x) log q(x). Вона каже, наскільки розподіл прогнозів q відрізняється від реального p.
5. Нейронні мережі: матриці у дії
Відраховуємо від вхідного шару: кожен нейрон — лінійна комбінація + функція активації.
Де W — матриця ваг, b — вектор зміщень (bias), f — функція активації.
| Функція | Формула | Де використовується |
|---|---|---|
| ReLU | max(0, x) | Прихований шар CNN, MLP |
| Sigmoid | 1/(1+e⁻ˣ) | Бінарний вихідний шар |
| Softmax | eˣⁱ / Σeˣʲ | Багатокласовий вихідний шар |
| Tanh | (eˣ−e⁻ˣ)/(eˣ+e⁻ˣ) | RNN, LSTM |
| GELU | x·Φ(x) | Трансформери (BERT, GPT) |
6. Зворотне поширення (Backpropagation)
Алгоритм навчання нейронних мереж — це застосування правила ланцюжка для обчислення похідних функцій втрат по кожному вагу:
За допомогою backprop обчислюються всі ∂L/∂wᵢ одним проходом мережі назад — алгоритм, без якого сучасний DL був би неможливий.
7. Теорема Байєса в ML
Байєсівські методи дозволяють включити апріорні знання в модель:
Застосовується в: наївному класифікаторі Байєса, гаусівських процесах, Байєсівських нейронних мережах, оцінюванні невизначеності в прогнозах.
FAQ: математика ML
Про цю статтю
Ця стаття є частиною бази знань calculator.party — освітнього ресурсу, що поєднує теорію з практичними інструментами. Матеріал орієнтований на студентів, учнів і фахівців, що прагнуть глибокого розуміння теми. Тут зібрані ключові концепції, формули та реальні приклади застосування.
Математичний аналіз — мова природничих наук. Диференціальне та інтегральне числення дозволяють описувати рух, зміни, накопичення та оптимізацію. Без цих інструментів неможливі сучасна фізика, інженерія, економіка та машинне навчання.
Навіщо читати цю статтю
Після прочитання ви зможете впевнено пояснити тему, вирішувати практичні задачі та застосовувати знання у навчанні й роботі. Стаття охоплює теоретичне підґрунтя і числові приклади, що полегшують запам'ятовування матеріалу.