Условие
После прохождения курса статистики Петя решил моделировать время, которое он тратит на домашние задания в неделю, как экспоненциально распределённую случайную величину с неизвестным параметром . Времена в разные недели считаем независимыми.
В первые шесть недель четверти Петя потратил на задания 11, 15, 17, 9, 18 и 23 часов. Чему равна оценка максимума правдоподобия параметра ?
Решение
Подход
Экспоненциальное распределение в одной из стандартных параметризаций:
Здесь — это rate (интенсивность), — это среднее.
Функция правдоподобия для независимых наблюдений :
Лог-правдоподобие:
Дифференцируем по и приравниваем к нулю:
То есть MLE параметра rate — это единица, делённая на выборочное среднее.
Подстановка чисел
Реализация
import numpy as np
from scipy.stats import expon
x = np.array([11, 15, 17, 9, 18, 23])
theta_mle = len(x) / x.sum() # rate-параметризация
print(round(theta_mle, 4)) # 0.0645
mean_mle = 1 / theta_mle # = mean(x) = 15.5
print(round(mean_mle, 4)) # 15.5
# scipy: параметризация через scale = 1/rate, loc = 0
loc, scale = expon.fit(x, floc=0)
print("rate =", round(1 / scale, 4)) # 0.0645А что в ответах автора?
В исходных ответах задания решали другую модель — мультиномиальную с MLE-долями theta_i = R_i / sum(R) и значениями правдоподобия. Это распространённая путаница: «MLE для экспоненты» и «MLE для дискретной пропорции» — разные формулы.
Корректный ответ под формулировку «экспоненциально распределённая величина» — именно .
Подводные камни
-
Параметризация. Существуют два стандарта:
- rate : , . MLE: .
- scale : , . MLE: .
scipy.stats.exponиспользует scale. Всегда уточняйте, что именно называется в задаче. -
Лог-правдоподобие vs правдоподобие. Численно работаем с лог-формой — иначе на больших выборках получим underflow. Точка максимума одна и та же.
-
Малая выборка (). Оценка очень шумная. Доверительный интервал широкий — это не «истинное» , а точечная оценка.
-
Положительность. обязательно: при не определён, и MLE-формула требует .
-
Связь с Пуассоном. Экспонента описывает интервалы между событиями пуассоновского процесса с интенсивностью . Полезно при проверке здравого смысла оценки.
Эталонный ответ
Эквивалентно: средняя продолжительность домашки — часов в неделю, и .