Собесов

Статистика — MLE параметра экспоненциального распределения

Статистика и теорверОценка параметров и MLEСредняяMiddle

Условие

После прохождения курса статистики Петя решил моделировать время, которое он тратит на домашние задания в неделю, как экспоненциально распределённую случайную величину с неизвестным параметром θ\theta. Времена в разные недели считаем независимыми.

В первые шесть недель четверти Петя потратил на задания 11, 15, 17, 9, 18 и 23 часов. Чему равна оценка максимума правдоподобия параметра θ\theta?

Решение

Подход

Экспоненциальное распределение в одной из стандартных параметризаций:

f(x;θ)=θeθx,x0f(x; \theta) = \theta \cdot e^{-\theta x}, \quad x \ge 0

Здесь θ\theta — это rate (интенсивность), 1/θ1/\theta — это среднее.

Функция правдоподобия для nn независимых наблюдений x1,,xnx_1, \dots, x_n:

L(θ)=i=1nθeθxi=θnexp ⁣(θixi)L(\theta) = \prod_{i=1}^{n} \theta \cdot e^{-\theta x_i} = \theta^n \cdot \exp\!\left(-\theta \sum_i x_i\right)

Лог-правдоподобие:

(θ)=nlnθθixi\ell(\theta) = n \ln \theta - \theta \sum_i x_i

Дифференцируем по θ\theta и приравниваем к нулю:

θ=nθixi=0        θ^MLE=nixi=1xˉ\frac{\partial \ell}{\partial \theta} = \frac{n}{\theta} - \sum_i x_i = 0 \;\;\Rightarrow\;\; \hat\theta_{MLE} = \frac{n}{\sum_i x_i} = \frac{1}{\bar x}

То есть MLE параметра rate — это единица, делённая на выборочное среднее.

Подстановка чисел

ixi=11+15+17+9+18+23=93\sum_i x_i = 11 + 15 + 17 + 9 + 18 + 23 = 93 xˉ=936=15.5\bar x = \frac{93}{6} = 15.5 θ^MLE=693=2310.0645\hat\theta_{MLE} = \frac{6}{93} = \frac{2}{31} \approx 0.0645

Реализация

import numpy as np
from scipy.stats import expon
 
x = np.array([11, 15, 17, 9, 18, 23])
 
theta_mle = len(x) / x.sum()           # rate-параметризация
print(round(theta_mle, 4))             # 0.0645
 
mean_mle = 1 / theta_mle               # = mean(x) = 15.5
print(round(mean_mle, 4))              # 15.5
 
# scipy: параметризация через scale = 1/rate, loc = 0
loc, scale = expon.fit(x, floc=0)
print("rate =", round(1 / scale, 4))   # 0.0645

А что в ответах автора?

В исходных ответах задания решали другую модель — мультиномиальную с MLE-долями theta_i = R_i / sum(R) и значениями правдоподобия. Это распространённая путаница: «MLE для экспоненты» и «MLE для дискретной пропорции» — разные формулы.

Корректный ответ под формулировку «экспоненциально распределённая величина» — именно θ^=n/xi\hat\theta = n/\sum x_i.

Подводные камни

  1. Параметризация. Существуют два стандарта:

    • rate λ\lambda: f(x)=λeλxf(x) = \lambda e^{-\lambda x}, E[X]=1/λE[X] = 1/\lambda. MLE: λ^=1/xˉ\hat\lambda = 1/\bar x.
    • scale β\beta: f(x)=(1/β)ex/βf(x) = (1/\beta) e^{-x/\beta}, E[X]=βE[X] = \beta. MLE: β^=xˉ\hat\beta = \bar x.

    scipy.stats.expon использует scale. Всегда уточняйте, что именно называется θ\theta в задаче.

  2. Лог-правдоподобие vs правдоподобие. Численно работаем с лог-формой — иначе на больших выборках получим underflow. Точка максимума одна и та же.

  3. Малая выборка (n=6n=6). Оценка очень шумная. Доверительный интервал широкий — это не «истинное» θ\theta, а точечная оценка.

  4. Положительность. xi>0x_i > 0 обязательно: ln(exp pdf)\ln(\text{exp pdf}) при x<0x<0 не определён, и MLE-формула требует xi>0\sum x_i > 0.

  5. Связь с Пуассоном. Экспонента описывает интервалы между событиями пуассоновского процесса с интенсивностью λ\lambda. Полезно при проверке здравого смысла оценки.

Эталонный ответ

θ^MLE=ni=1nxi=693=2310.0645\hat\theta_{MLE} = \frac{n}{\sum_{i=1}^{n} x_i} = \frac{6}{93} = \frac{2}{31} \approx 0.0645

Эквивалентно: средняя продолжительность домашки — xˉ=15.5\bar x = 15.5 часов в неделю, и θ^=1/xˉ\hat\theta = 1/\bar x.

Хочешь увидеть разбор?

Зарегистрируйся бесплатно — откроется развёрнутое решение этой задачи и ещё 4 на выбор.

Зарегистрироваться и увидеть разбор
Уже есть аккаунт? Войти