Собесов

Хабр Статистика — ошибки I и II рода, α, β и мощность

Статистика и теорверГипотезыЛёгкаяMiddle

Условие

Объясните разницу между ошибками I и II рода. Что такое α, β, мощность? Как изменится мощность теста, если увеличить выборку вдвое или сделать порог значимости более строгим (α = 0.01 вместо 0.05)?

Решение

Таблица истинно-предсказанного

H₀ верна H₀ ложна
Не отвергли H₀ OK Ошибка II рода (β)
Отвергли H₀ Ошибка I рода (α) OK (мощность 1 - β)

Определения

  • α (level) = P(отвергли H₀ | H₀ верна) = ложноположительная ошибка. Контролируется аналитиком (обычно 0.05).
  • β = P(не отвергли H₀ | H₁ верна) = ложноотрицательная ошибка.
  • Power (мощность) = 1 - β = вероятность правильно увидеть эффект, когда он есть. Обычно цель ≥ 80%.

Аналогия с пожарной сигнализацией

  • α — сирена сработала зря (нет пожара) → команда зря приехала.
  • β — пожар есть, но сирена не сработала → дом сгорел. В разных контекстах цена разная: для медицинских тестов часто β дороже, для маркетинговых релизов — α.

Что влияет на мощность

Действие Power
Увеличить N вдвое растёт значительно
Увеличить эффект (MDE) вдвое растёт сильно (квадратично через формулу)
Сделать α строже (0.05 → 0.01) падает
Уменьшить σ метрики (CUPED) растёт
Сделать тест односторонним растёт (но повышает риск)

Конкретный пример

При двойной выборке n → 2n:

  • SE уменьшается в √2 раз;
  • z-статистика растёт в √2 раз;
  • При прежнем эффекте — вероятность пробить порог значимости заметно растёт.

Численно: была power = 50% → станет ≈ 80%.

При смене α 0.05 → 0.01 (двусторонне):

  • Порог z вырос с 1.96 до 2.576;
  • При прежней статистике мощность падает (например, с 80% до ≈ 55%).

Формула связи

Для двух средних с известной дисперсией:

1β=Φ(Δσ/nz1α/2)1 - \beta = \Phi\left( \frac{\Delta}{\sigma / \sqrt{n}} - z_{1-\alpha/2} \right)

(односторонне). Иначе говоря, мощность растёт с Δ, √n и падает с σ и более строгим α.

Подводные камни

  1. «Мощность 80% означает, что мы 80% правы». Нет: это вероятность задетектить эффект, если он есть.
  2. p-valueP(H₀ верна). p-value считается при условии H₀.
  3. Снижать α без увеличения N — портит мощность; в итоге чаще получаете «не значимо» при настоящем эффекте.
  4. Multiple testing. Тестирование 20 метрик при α=0.05 даёт 1 - 0.95^20 ≈ 64% шанс хотя бы одной ложной позитивной. Bonferroni: α/k.
  5. Сильное смещение эффекта (winner's curse). Если эффект «прошёл значимость» близко к границе, его истинная величина в реальности обычно меньше.

Эталонный ответ

α = ложная тревога (отвергли H₀, когда она верна). β = пропуск эффекта. Power = 1 - β — вероятность задетектить настоящий эффект. Удвоение N: SE падает в √2, power существенно растёт. α 0.05→0.01: порог строже, power падает. Цели стандарта: α=5%, power=80%.

Хочешь увидеть разбор?

Зарегистрируйся бесплатно — откроется развёрнутое решение этой задачи и ещё 4 на выбор.

Зарегистрироваться и увидеть разбор
Уже есть аккаунт? Войти