Условие
Что такое ошибки I и II рода? Как они связаны? Что такое мощность теста и от чего она зависит?
Решение
Подход
| H₀ верна | H₀ ложна | |
|---|---|---|
| Отвергли H₀ | Ошибка I рода (α) | Верно (мощность = 1 - β) |
| Не отвергли H₀ | Верно | Ошибка II рода (β) |
- α (Type I) — вероятность отвергнуть верную H₀ («ложно нашли эффект»). Обычно 5%.
- β (Type II) — вероятность не заметить настоящий эффект («пропустили»). Обычно фиксируют 20%.
- Мощность
1 - β— вероятность увидеть настоящий эффект.
Trade-off
Жёстче порог (меньше α) → реже ложно отвергаем, но и реже находим настоящий эффект (больше β). При прочих равных α и β противонаправлены.
От чего зависит мощность
- Размер истинного эффекта (Δ): чем больше — тем легче заметить.
- Размер выборки n: больше n → меньше дисперсия среднего → больше мощность.
- Дисперсия наблюдений σ²: меньше шум → выше мощность.
- Уровень α: жёстче α → ниже мощность.
from statsmodels.stats.power import NormalIndPower
# Сколько нужно n на группу, чтобы при эффекте 0.05 (стандартизированном) поймать с мощностью 0.8?
analysis = NormalIndPower()
n = analysis.solve_power(effect_size=0.05, alpha=0.05, power=0.8)
print(round(n)) # ~6280 на группуПодводные камни
- Тест без power-анализа — частая ошибка. Запустить эксперимент на 100 пользователях и «не получить значимости» — это не «эффекта нет», это «недостаточно данных».
- Множественные сравнения раздувают α: при 20 одновременных тестах хотя бы один окажется значимым по чистой случайности.
- Большая мощность не делает p-value «лучше» — она лишь снижает шанс упустить эффект.
Эталонный ответ
Type I (α) — ложно отвергли верную H₀; Type II (β) — не заметили настоящий эффект. Мощность = 1 - β зависит от размера эффекта, n, дисперсии и α. Перед стартом теста делайте power-анализ, чтобы прикинуть требуемый объём выборки.