Условие

После прохождения курса статистики Петя решил моделировать время, которое он тратит на домашние задания в неделю, как экспоненциально распределённую случайную величину с неизвестным параметром $\theta$ . Времена в разные недели считаем независимыми.

В первые шесть недель четверти Петя потратил на задания 11, 15, 17, 9, 18 и 23 часов. Чему равна оценка максимума правдоподобия параметра $\theta$ ?

Решение

Подход

Экспоненциальное распределение в одной из стандартных параметризаций:

f(x; \theta) = \theta \cdot e^{-\theta x}, \quad x \ge 0

Здесь $\theta$ — это rate (интенсивность), $1/\theta$ — это среднее.

Функция правдоподобия для $n$ независимых наблюдений $x_1, \dots, x_n$ :

L(\theta) = \prod_{i=1}^{n} \theta \cdot e^{-\theta x_i} = \theta^n \cdot \exp\!\left(-\theta \sum_i x_i\right)

Лог-правдоподобие:

\ell(\theta) = n \ln \theta - \theta \sum_i x_i

Дифференцируем по $\theta$ и приравниваем к нулю:

\frac{\partial \ell}{\partial \theta} = \frac{n}{\theta} - \sum_i x_i = 0 \;\;\Rightarrow\;\; \hat\theta_{MLE} = \frac{n}{\sum_i x_i} = \frac{1}{\bar x}

То есть MLE параметра rate — это единица, делённая на выборочное среднее.

Подстановка чисел

\sum_i x_i = 11 + 15 + 17 + 9 + 18 + 23 = 93

\bar x = \frac{93}{6} = 15.5

\hat\theta_{MLE} = \frac{6}{93} = \frac{2}{31} \approx 0.0645

Реализация

import numpy as np
from scipy.stats import expon
 
x = np.array([11, 15, 17, 9, 18, 23])
 
theta_mle = len(x) / x.sum()           # rate-параметризация
print(round(theta_mle, 4))             # 0.0645
 
mean_mle = 1 / theta_mle               # = mean(x) = 15.5
print(round(mean_mle, 4))              # 15.5
 
# scipy: параметризация через scale = 1/rate, loc = 0
loc, scale = expon.fit(x, floc=0)
print("rate =", round(1 / scale, 4))   # 0.0645

А что в ответах автора?

В исходных ответах задания решали другую модель — мультиномиальную с MLE-долями theta_i = R_i / sum(R) и значениями правдоподобия. Это распространённая путаница: «MLE для экспоненты» и «MLE для дискретной пропорции» — разные формулы.

Корректный ответ под формулировку «экспоненциально распределённая величина» — именно $\hat\theta = n/\sum x_i$ .

Подводные камни

Параметризация. Существуют два стандарта:
- rate $\lambda$ : $f(x) = \lambda e^{-\lambda x}$ , $E[X] = 1/\lambda$ . MLE: $\hat\lambda = 1/\bar x$ .
- scale $\beta$ : $f(x) = (1/\beta) e^{-x/\beta}$ , $E[X] = \beta$ . MLE: $\hat\beta = \bar x$ .
scipy.stats.expon использует scale. Всегда уточняйте, что именно называется $\theta$ в задаче.
Лог-правдоподобие vs правдоподобие. Численно работаем с лог-формой — иначе на больших выборках получим underflow. Точка максимума одна и та же.
Малая выборка ( $n=6$ ). Оценка очень шумная. Доверительный интервал широкий — это не «истинное» $\theta$ , а точечная оценка.
Положительность. $x_i > 0$ обязательно: $\ln(\text{exp pdf})$ при $x<0$ не определён, и MLE-формула требует $\sum x_i > 0$ .
Связь с Пуассоном. Экспонента описывает интервалы между событиями пуассоновского процесса с интенсивностью $\lambda$ . Полезно при проверке здравого смысла оценки.

Эталонный ответ

\hat\theta_{MLE} = \frac{n}{\sum_{i=1}^{n} x_i} = \frac{6}{93} = \frac{2}{31} \approx 0.0645

Эквивалентно: средняя продолжительность домашки — $\bar x = 15.5$ часов в неделю, и $\hat\theta = 1/\bar x$ .

Статистика — MLE параметра экспоненциального распределения