Условие

Что такое ошибки I и II рода? Как они связаны? Что такое мощность теста и от чего она зависит?

Решение

Подход

	H₀ верна	H₀ ложна
Отвергли H₀	Ошибка I рода (α)	Верно (мощность = 1 - β)
Не отвергли H₀	Верно	Ошибка II рода (β)

α (Type I) — вероятность отвергнуть верную H₀ («ложно нашли эффект»). Обычно 5%.
β (Type II) — вероятность не заметить настоящий эффект («пропустили»). Обычно фиксируют 20%.
Мощность 1 - β — вероятность увидеть настоящий эффект.

Trade-off

Жёстче порог (меньше α) → реже ложно отвергаем, но и реже находим настоящий эффект (больше β). При прочих равных α и β противонаправлены.

От чего зависит мощность

Размер истинного эффекта (Δ): чем больше — тем легче заметить.
Размер выборки n: больше n → меньше дисперсия среднего → больше мощность.
Дисперсия наблюдений σ²: меньше шум → выше мощность.
Уровень α: жёстче α → ниже мощность.

from statsmodels.stats.power import NormalIndPower
# Сколько нужно n на группу, чтобы при эффекте 0.05 (стандартизированном) поймать с мощностью 0.8?
analysis = NormalIndPower()
n = analysis.solve_power(effect_size=0.05, alpha=0.05, power=0.8)
print(round(n))  # ~6280 на группу

Подводные камни

Тест без power-анализа — частая ошибка. Запустить эксперимент на 100 пользователях и «не получить значимости» — это не «эффекта нет», это «недостаточно данных».
Множественные сравнения раздувают α: при 20 одновременных тестах хотя бы один окажется значимым по чистой случайности.
Большая мощность не делает p-value «лучше» — она лишь снижает шанс упустить эффект.

Эталонный ответ

Type I (α) — ложно отвергли верную H₀; Type II (β) — не заметили настоящий эффект. Мощность = 1 - β зависит от размера эффекта, n, дисперсии и α. Перед стартом теста делайте power-анализ, чтобы прикинуть требуемый объём выборки.

alexeygrigorev/data-science-interviews: ошибки I и II рода