Условие

Объясните разницу между ошибками I и II рода. Что такое α, β, мощность? Как изменится мощность теста, если увеличить выборку вдвое или сделать порог значимости более строгим (α = 0.01 вместо 0.05)?

Решение

Таблица истинно-предсказанного

	H₀ верна	H₀ ложна
Не отвергли H₀	OK	Ошибка II рода (β)
Отвергли H₀	Ошибка I рода (α)	OK (мощность 1 - β)

Определения

α (level) = P(отвергли H₀ | H₀ верна) = ложноположительная ошибка. Контролируется аналитиком (обычно 0.05).
β = P(не отвергли H₀ | H₁ верна) = ложноотрицательная ошибка.
Power (мощность) = 1 - β = вероятность правильно увидеть эффект, когда он есть. Обычно цель ≥ 80%.

Аналогия с пожарной сигнализацией

α — сирена сработала зря (нет пожара) → команда зря приехала.
β — пожар есть, но сирена не сработала → дом сгорел. В разных контекстах цена разная: для медицинских тестов часто β дороже, для маркетинговых релизов — α.

Что влияет на мощность

Действие	Power
Увеличить N вдвое	растёт значительно
Увеличить эффект (MDE) вдвое	растёт сильно (квадратично через формулу)
Сделать α строже (0.05 → 0.01)	падает
Уменьшить σ метрики (CUPED)	растёт
Сделать тест односторонним	растёт (но повышает риск)

Конкретный пример

При двойной выборке n → 2n:

SE уменьшается в √2 раз;
z-статистика растёт в √2 раз;
При прежнем эффекте — вероятность пробить порог значимости заметно растёт.

Численно: была power = 50% → станет ≈ 80%.

При смене α 0.05 → 0.01 (двусторонне):

Порог z вырос с 1.96 до 2.576;
При прежней статистике мощность падает (например, с 80% до ≈ 55%).

Формула связи

Для двух средних с известной дисперсией:

1 - \beta = \Phi\left( \frac{\Delta}{\sigma / \sqrt{n}} - z_{1-\alpha/2} \right)

(односторонне). Иначе говоря, мощность растёт с Δ, √n и падает с σ и более строгим α.

Подводные камни

«Мощность 80% означает, что мы 80% правы». Нет: это вероятность задетектить эффект, если он есть.
p-value ≠ P(H₀ верна). p-value считается при условии H₀.
Снижать α без увеличения N — портит мощность; в итоге чаще получаете «не значимо» при настоящем эффекте.
Multiple testing. Тестирование 20 метрик при α=0.05 даёт 1 - 0.95^20 ≈ 64% шанс хотя бы одной ложной позитивной. Bonferroni: α/k.
Сильное смещение эффекта (winner's curse). Если эффект «прошёл значимость» близко к границе, его истинная величина в реальности обычно меньше.

Эталонный ответ

α = ложная тревога (отвергли H₀, когда она верна). β = пропуск эффекта. Power = 1 - β — вероятность задетектить настоящий эффект. Удвоение N: SE падает в √2, power существенно растёт. α 0.05→0.01: порог строже, power падает. Цели стандарта: α=5%, power=80%.

Хабр Статистика — ошибки I и II рода, α, β и мощность