Лекция 4

Автор

Е. Тымченко

Дата публикации

27 июня 2023 г.

Метод максимального правдоподобия

Чтобы лучше усвоить, в чём состоит метод максимального правдоподобия и чем он отличается от МНК, давайте вспомним, в чём состоял последний.

Метод наименьших квадратов предполагает, что у нас есть модель, где \(X\) - табличка с независимыми переменными, \(\beta\) - набор коэффициентов, с коротыми независимые переменные влияют на \(y\), \(\epsilon\) - все незначительные факторы, которые, как мы ожидаем, в сумме дают 0 и не зависят от \(X\).

\[y = X\beta + \epsilon\] \(y\) и \(X\) мы уже знаем, поскольку, данные у нас есть. Остаётся найти \(\beta\), решив задачу минимизации квадратов ошибок в нашей модели:

\[\min_{\hat{\beta}} [y - X\hat{\beta}]^2\] После взятия производной и пары алгебраических преобразований мы получили оценку для \(\hat{\beta}\)

\[\hat{\beta} = (X'X)^{-1}X'Y\] И замечательное свойство этой оценки - несмещённость.

\[\epsilon \sim \mathbb{N}(0,\sigma)\]

В тот раз мы не делали никаких предположений о том, как распределён \(y\). Всё, что мы сделали - это провели такую линию, чтобы сумма квадратов ошибок в выборке была минимальной.

Предположение в модели, оценённой методом наименьших квадратов: \(y \in (-\infty, \infty)\).
Предположение в модели, оценённой методом максимального правдоподобия: \(у\) имеет какое-то распределение (зависит от модели) и определена на заданном интервале. Например, биномиальное распределение (например, подбрасывание монетки), где \(y \in \{0, 1\}\).

Это более общий и гибкий способ моделирования. Более того, мы явно указываем в модели свои предположения о том, как распределены данные.

Процедура, с помощью которой мы получаем коэффициенты, тоже отличается.

Давайте построим статистическую модель:

условная вероятность того, что человек болен диабетом при заданном уровне глюкозы в крови равна \(P(y = y_i | x)\), \(P(y = y_i | x) \in [0, 1]\)
тогда вероятность, что человек здоров, равна \(1 - P(y = y_i | x)\).
Мы хотим смоделировать вероятность \(P\). Придумаем функцию, которая имела бы область определения \((0,1)\) и зависела от параметров \(\beta\), которые принимают значения от \(-\infty\) до \(+\infty\)
Такая функция известна - сигмоид.

\[P(y = y_i) = \frac{1}{1 + e^{-X\beta}}\] Число в знаменателе, \(e^{-X\beta}\) принимает значения от 0 до бесконечности. Так, если \(e^{-X\beta} = \infty\), искомая вероятность равна 0. Если же \(e^{-X\beta} = 0\), то искомая вероятность равна 1.

Наша идея в том, чтобы подобрать такие коэффициенты \(\beta\) в уравнении, чтобы вероятность \(P\) с наибольшим правдоподобием происходила из биномиального распределения (распределения, в котором исходы принимают значения 0 или 1).

Как получить эти коэффициенты?

Максимизировать логистическую функцию по \(\beta\).

Иначе говоря, взять частные производные по каждой \(\beta\), приравнять к 0, решить систему уравнений.

Почему метод называют методом максимального правдоподобия?

Какие ещё предположения можно делать о распределении y?