Условие
Объясните разницу между ошибками I и II рода. Что такое α, β, мощность? Как изменится мощность теста, если увеличить выборку вдвое или сделать порог значимости более строгим (α = 0.01 вместо 0.05)?
Решение
Таблица истинно-предсказанного
| H₀ верна | H₀ ложна | |
|---|---|---|
| Не отвергли H₀ | OK | Ошибка II рода (β) |
| Отвергли H₀ | Ошибка I рода (α) | OK (мощность 1 - β) |
Определения
- α (level) = P(отвергли H₀ | H₀ верна) = ложноположительная ошибка. Контролируется аналитиком (обычно 0.05).
- β = P(не отвергли H₀ | H₁ верна) = ложноотрицательная ошибка.
- Power (мощность) = 1 - β = вероятность правильно увидеть эффект, когда он есть. Обычно цель ≥ 80%.
Аналогия с пожарной сигнализацией
- α — сирена сработала зря (нет пожара) → команда зря приехала.
- β — пожар есть, но сирена не сработала → дом сгорел. В разных контекстах цена разная: для медицинских тестов часто β дороже, для маркетинговых релизов — α.
Что влияет на мощность
| Действие | Power |
|---|---|
| Увеличить N вдвое | растёт значительно |
| Увеличить эффект (MDE) вдвое | растёт сильно (квадратично через формулу) |
| Сделать α строже (0.05 → 0.01) | падает |
| Уменьшить σ метрики (CUPED) | растёт |
| Сделать тест односторонним | растёт (но повышает риск) |
Конкретный пример
При двойной выборке n → 2n:
- SE уменьшается в
√2раз; - z-статистика растёт в
√2раз; - При прежнем эффекте — вероятность пробить порог значимости заметно растёт.
Численно: была power = 50% → станет ≈ 80%.
При смене α 0.05 → 0.01 (двусторонне):
- Порог z вырос с 1.96 до 2.576;
- При прежней статистике мощность падает (например, с 80% до ≈ 55%).
Формула связи
Для двух средних с известной дисперсией:
(односторонне). Иначе говоря, мощность растёт с Δ, √n и падает с σ и более строгим α.
Подводные камни
- «Мощность 80% означает, что мы 80% правы». Нет: это вероятность задетектить эффект, если он есть.
p-value≠P(H₀ верна). p-value считается при условии H₀.- Снижать α без увеличения N — портит мощность; в итоге чаще получаете «не значимо» при настоящем эффекте.
- Multiple testing. Тестирование 20 метрик при α=0.05 даёт
1 - 0.95^20 ≈ 64%шанс хотя бы одной ложной позитивной. Bonferroni:α/k. - Сильное смещение эффекта (winner's curse). Если эффект «прошёл значимость» близко к границе, его истинная величина в реальности обычно меньше.
Эталонный ответ
α = ложная тревога (отвергли H₀, когда она верна). β = пропуск эффекта. Power = 1 - β — вероятность задетектить настоящий эффект. Удвоение N: SE падает в √2, power существенно растёт. α 0.05→0.01: порог строже, power падает. Цели стандарта: α=5%, power=80%.