Лекция 4
Метод максимального правдоподобия
Чтобы лучше усвоить, в чём состоит метод максимального правдоподобия и чем он отличается от МНК, давайте вспомним, в чём состоял последний.

Метод наименьших квадратов предполагает, что у нас есть модель, где \(X\) - табличка с независимыми переменными, \(\beta\) - набор коэффициентов, с коротыми независимые переменные влияют на \(y\), \(\epsilon\) - все незначительные факторы, которые, как мы ожидаем, в сумме дают 0 и не зависят от \(X\).
\[y = X\beta + \epsilon\] \(y\) и \(X\) мы уже знаем, поскольку, данные у нас есть. Остаётся найти \(\beta\), решив задачу минимизации квадратов ошибок в нашей модели:
\[\min_{\hat{\beta}} [y - X\hat{\beta}]^2\] После взятия производной и пары алгебраических преобразований мы получили оценку для \(\hat{\beta}\)
\[\hat{\beta} = (X'X)^{-1}X'Y\] И замечательное свойство этой оценки - несмещённость.
\[\epsilon \sim \mathbb{N}(0,\sigma)\]
В тот раз мы не делали никаких предположений о том, как распределён \(y\). Всё, что мы сделали - это провели такую линию, чтобы сумма квадратов ошибок в выборке была минимальной.
- Предположение в модели, оценённой методом наименьших квадратов: \(y \in (-\infty, \infty)\).
- Предположение в модели, оценённой методом максимального правдоподобия: \(у\) имеет какое-то распределение (зависит от модели) и определена на заданном интервале. Например, биномиальное распределение (например, подбрасывание монетки), где \(y \in \{0, 1\}\).
Это более общий и гибкий способ моделирования. Более того, мы явно указываем в модели свои предположения о том, как распределены данные.
Процедура, с помощью которой мы получаем коэффициенты, тоже отличается.
Давайте построим статистическую модель:
- условная вероятность того, что человек болен диабетом при заданном уровне глюкозы в крови равна \(P(y = y_i | x)\), \(P(y = y_i | x) \in [0, 1]\)
- тогда вероятность, что человек здоров, равна \(1 - P(y = y_i | x)\).
- Мы хотим смоделировать вероятность \(P\). Придумаем функцию, которая имела бы область определения \((0,1)\) и зависела от параметров \(\beta\), которые принимают значения от \(-\infty\) до \(+\infty\)
- Такая функция известна - сигмоид.
\[P(y = y_i) = \frac{1}{1 + e^{-X\beta}}\] Число в знаменателе, \(e^{-X\beta}\) принимает значения от 0 до бесконечности. Так, если \(e^{-X\beta} = \infty\), искомая вероятность равна 0. Если же \(e^{-X\beta} = 0\), то искомая вероятность равна 1.
Наша идея в том, чтобы подобрать такие коэффициенты \(\beta\) в уравнении, чтобы вероятность \(P\) с наибольшим правдоподобием происходила из биномиального распределения (распределения, в котором исходы принимают значения 0 или 1).
Как получить эти коэффициенты?
Максимизировать логистическую функцию по \(\beta\).
Иначе говоря, взять частные производные по каждой \(\beta\), приравнять к 0, решить систему уравнений.
Почему метод называют методом максимального правдоподобия?
Какие ещё предположения можно делать о распределении y?