Условие
Сформулируйте центральную предельную теорему (ЦПТ). Приведите два прикладных примера, где она важна аналитику.
Решение
Формулировка (классическая, для iid)
Пусть X_1, X_2, …, X_n — независимые одинаково распределённые случайные величины с конечным средним μ и конечной дисперсией σ². Тогда при n → ∞:
Иначе: распределение выборочного среднего стремится к нормальному с центром μ и дисперсией σ²/n — независимо от формы исходного распределения X.
Прикладные следствия
-
Доверительный интервал для среднего без знания распределения.
mean ± 1.96 · SEкорректен для большой выборки, даже если данные сильно скошены. -
T-test и Z-test «работают» на любых данных при больших n. Хотя формально t-test предполагает нормальность X, фактически он использует нормальность среднего, что даёт ЦПТ.
-
Дисперсия среднего падает как
1/n. Удвоение выборки сужает CI в√2раз. Удвоение точности (вдвое более узкий CI) требует четырёхкратной выборки.
Когда ЦПТ «не помогает»
- Heavy tails без конечной дисперсии (например, Коши). Среднее не стабилизируется ни при каких n.
- Маленькое n (n < 30 эмпирически, но порог зависит от skewness). На скошенных данных (выручка с китами) даже n=500 может быть мало.
- Не-iid данные (временной ряд с автокорреляцией, кластерные данные). Нужно адаптировать SE.
Пример симуляции
import numpy as np
import matplotlib.pyplot as plt
# Исходные данные — экспоненциальные (скошенные)
np.random.seed(42)
for n in [1, 5, 30, 100]:
means = [np.random.exponential(scale=1, size=n).mean() for _ in range(10000)]
plt.hist(means, bins=50, alpha=0.5, label=f"n={n}")
plt.legend(); plt.show()Видно, как от экспоненциальной форма распределения среднего приходит к колоколу.
Подводные камни
- «ЦПТ говорит, что данные нормальные». Нет — нормально распределяется среднее, а не сами данные.
- «n=30 — магическая граница». Это эмпирическое правило для слабо скошенных данных. Для heavy tails нужно гораздо больше.
- Применять к медиане. Для медианы тоже есть асимптотическая нормальность, но с другой дисперсией (
1/(4 f(median)² n)). - ЦПТ + heavy tails. Конечная дисперсия — обязательное условие. Без неё (Парето с α≤2) ЦПТ не работает.
- Маленькое n + скошенность → t-test может дать неверный CI. Лучше bootstrap.
Эталонный ответ
ЦПТ: для iid с конечным σ² распределение (X̄ - μ)·√n / σ стремится к N(0,1) независимо от формы X. Это обоснование t/z-тестов, доверительных интервалов и асимптотической точности ±1/√n оценок. Не работает при бесконечной дисперсии, маленьком n с сильным skewness и зависимых данных.