Условие
Что такое p-value? Если в A/B-тесте получили p-value = 0.03, какие выводы можно делать, а какие нельзя?
Решение
Подход
Формальное определение: p-value — это вероятность получить статистику, как минимум столь же экстремальную, как наблюдаемая, при условии что нулевая гипотеза верна.
Если H₀: «нет разницы между A и B», и p = 0.03, то «при условии что разницы нет, такое или более выраженное расхождение в данных встречается в 3% случаев».
Что можно сказать при p = 0.03
- При α = 0.05 — отклоняем H₀, говорим о «статистически значимой» разнице.
- Это слабая улика против H₀, не доказательство её ложности.
Что нельзя
- p-value ≠ вероятность того, что H₀ верна. Для этого нужен байесовский подход.
- p-value ≠ вероятность того, что результат повторится в новом эксперименте.
- Маленький p при большой выборке не означает «бизнес-значимый эффект». Различие на 0.01% можно сделать значимым на миллионе пользователей.
- p-value сам по себе ничего не говорит о размере эффекта.
Что лучше делать
- Смотреть доверительный интервал для эффекта — он сразу показывает и направление, и величину, и неопределённость.
- Фиксировать минимально интересный эффект (MDE) до старта теста.
- При множественных проверках — корректировка (Бонферрони, BH).
from scipy import stats
# z-test для разницы двух конверсий
import statsmodels.stats.proportion as smp
z, p = smp.proportions_ztest([120, 100], [2000, 2000])
print(p)Подводные камни
- Peeking — подглядывать в результаты ежедневно и останавливать тест при p < 0.05. Это раздувает FPR с 5% до 30-50%. Нужны sequential testing или фиксированная длительность.
- На очень большой выборке любая микроскопическая разница даст
p < 0.05. Бизнес-значимость и стат-значимость — это разные вещи. - p-value 0.06 «почти значимо» — не существует. Граница α — это просто соглашение.
Эталонный ответ
P-value — вероятность увидеть такие или более экстремальные данные при условии H₀. p = 0.03 означает: при отсутствии эффекта такое расхождение случается 3% времени. Это не вероятность того, что H₀ ложна. Обязательно смотрите ещё на размер эффекта и доверительный интервал.