>
📊 Аналіз даних

Базовий workflow аналізу даних

Від збору даних до висновків: 7 кроків, ключові методи та практичні рекомендації

Покроковий процес

1

Визначення задачі та цілей

Перш ніж збирати дані, чітко сформулюйте питання.

  • Яке питання ви хочете відповісти?
  • Які рішення будуть прийняті на основі аналізу?
  • Що є метрикою успіху?
  • Які обмеження (час, ресурси, дані)?
2

Збір даних

Джерела та методи отримання даних.

  • Первинні: експеримент, опитування, спостереження
  • Вторинні: бази даних, відкриті датасети, API
  • Перевірте репрезентативність вибірки
  • Задокументуйте умови збору (час, місце, метод)
3

Очищення та підготовка даних

Data cleaning — найчастіше займає 60–80% часу проекту.

  • Пропущені значення: видалення, імпутація (середнє, медіана, KNN)
  • Викиди: виявлення (IQR, Z-score, DBSCAN), рішення чи залишати
  • Дублікати: видалення або перевірка
  • Тип даних: числовий, категоріальний, дата/час
  • Кодування: one-hot encoding, label encoding
  • Нормалізація: min-max [0,1], стандартизація Z-score
4

Розвідковий аналіз даних (EDA)

Зрозумійте структуру та характеристики даних.

  • Описова статистика: mean, median, std, min, max, квантілі
  • Розподіли: гістограми, ящики, Q-Q графіки
  • Кореляції: матриця кореляцій, теплова карта
  • Графіки: scatter plot, pair plot, violin plot
  • Перевірка нормальності: тест Шапіро-Вілка, Колмогорова-Смірнова
5

Статистичний аналіз та тестування гіпотез

Відповідь на питання з доведеною статистичною значущістю.

  • Нульова гіпотеза (H₀) та альтернативна (H₁)
  • Рівень значущості α (зазвичай 0,05)
  • Вибір тесту: параметричний vs непараметричний
  • p-value: якщо p < α → відхиляємо H₀
  • Довірчий інтервал, практична значущість (effect size)
6

Моделювання

Побудова прогнозних або пояснювальних моделей.

  • Вибір моделі на основі задачі та даних
  • Розбивка: навчальна (70–80%) / тестова (20–30%) вибірки
  • Крос-валідація для надійної оцінки
  • Метрики: R², RMSE, MAE (регресія); accuracy, F1, AUC (класифікація)
  • Регуляризація: L1 (Lasso), L2 (Ridge) для уникнення перенавчання
7

Візуалізація та висновки

Ефективна комунікація результатів.

  • Оберіть правильний тип графіка для кожного твердження
  • Уникайте оманливих осей і масштабів
  • Підготуйте резюме для технічної та нетехнічної аудиторії
  • Задокументуйте обмеження та припущення
  • Визначте наступні кроки та додаткові питання

Вибір статистичного тесту

ЗадачаНормальний розподіл?Тест
Порівняння 2 середніх (парні)ТакПарний t-тест
Порівняння 2 середніх (незалежні)ТакНезалежний t-тест
Порівняння 2 медіанНіТест Манна-Вітні (U-тест)
Порівняння 3+ групТакANOVA
Порівняння 3+ групНіТест Краскела-Уоліса
Зв'язок між 2 числовимиТакПірсон r
Зв'язок між 2 числовимиНіСпірмен ρ, Кендалл τ
Зв'язок між категоріальнимиχ² тест незалежності
Відповідність розподілуχ² тест, KS-тест

Ключові формули

Z-score (стандартизація)
z = (x − μ) / σ
Або: z = (x − x̄) / s
Коефіцієнт кореляції Пірсона
r = Σ(xᵢ−x̄)(yᵢ−ȳ) / √(Σ(xᵢ−x̄)²·Σ(yᵢ−ȳ)²)
−1 ≤ r ≤ 1
R² (коефіцієнт детермінації)
R² = 1 − SS_res / SS_tot
SS_res = Σ(yᵢ−ŷᵢ)²
SS_tot = Σ(yᵢ−ȳ)²
Нормалізація Min-Max
x_norm = (x − x_min) / (x_max − x_min)
RMSE та MAE
RMSE = √(Σ(yᵢ−ŷᵢ)²/n)
MAE = Σ|yᵢ−ŷᵢ| / n
p-value та α
p < 0,05 → статистично значущо
Не плутати: статистична ≠ практична значущість

Тип даних та методи

Тип змінноїШкалаМетоди
Числова неперервнаІнтервальна/відношеньСереднє, стд, t-тест, регресія
Числова дискретнаІнтервальнаРозподіл Пуассона, χ²
ПорядковаПорядковаМедіана, Спірмен, U-тест
Номінальна (категоріальна)НомінальнаМода, χ², логіст. регресія
💡 Поширена помилка: кореляція ≠ причинно-наслідковий зв'язок. Для встановлення причинності потрібен рандомізований контрольований експеримент або методи причинного виводу (causal inference).

Як користуватися шпаргалкою

Ця шпаргалка зосереджує найважливіші формули, правила та визначення теми в компактному форматі для швидкого пошуку та підготовки до іспитів. Матеріал систематизований від базових понять до просунутих результатів.

Гідро- та аеродинаміка описують течії рідин і газів в природі та техніці.

Ефективне використання

Використовуйте шпаргалку поряд з розв'язуванням задач — не для списування, а як довідник формул. Спершу спробуйте пригадати формулу самостійно, потім звіртеся з довідником. Регулярне повторення формує стійку пам'ять.

Часті запитання (FAQ)

Які ключові формули та правила містить шпаргалка з базовий workflow аналізу даних?
Ця шпаргалка з 'Базовий workflow аналізу даних' включає: основні означення, головні формули у компактному вигляді, правила обчислень, типові підстановки та приклади застосування. Все систематизовано для швидкого пошуку.
Для кого призначена ця шпаргалка з базовий workflow аналізу даних?
Шпаргалка з 'Базовий workflow аналізу даних' орієнтована на студентів університетів та учнів старшої школи, а також на всіх, хто хоче швидко освіжити знання перед іспитом або при вирішенні практичних задач.
Як використовувати шпаргалку з базовий workflow аналізу даних при підготовці до іспиту?
Оптимальна стратегія: спершу вивчіть теорію, потім використовуйте шпаргалку як довідник при розв'язанні задач. За 1–2 дні до іспиту перегляньте шпаргалку цілком, звертаючи увагу на формули, які ви плутаєте.
Чи охоплює ця шпаргалка всю програму курсу з базовий workflow аналізу даних?
Шпаргалка з 'Базовий workflow аналізу даних' охоплює стандартну університетську програму: всі ключові теореми, формули та методи. Матеріал структурований від базових понять до просунутих результатів.
Де ще можна попрактикуватися з базовий workflow аналізу даних після вивчення шпаргалки?
Після роботи зі шпаргалкою рекомендуємо: тренажери вправ на calculator.party (миттєвий зворотний зв'язок), розв'язані задачі (показують метод покроково) та онлайн-калькулятори для перевірки власних результатів.