Что такое метод максимального правдоподобия (MLE)?

Question

Что такое метод максимального правдоподобия (MLE)?

Тип вопроса: Статистика и теория вероятностей Вероятность: 26% Категория: Data Scientist / ML Инженер

Ответ

Метод максимального правдоподобия (MLE) — это принцип оценки параметров статистической модели. Мы находим такие значения параметров, при которых наблюдаемые данные были бы наиболее вероятными (имели бы максимальную «правдоподобность»).

Формально: Для модели с параметрами θ и наблюдаемых данных X, оценка максимального правдоподобия θ̂ находится как: θ̂ = argmax L(θ|X) = argmax P(X|θ), где L(θ|X) — функция правдоподобия.

Почему он важен:

Асимптотические свойства: При больших объемах данных MLE-оценки являются несмещенными, состоятельными и эффективными (имеют наименьшую возможную дисперсию).
Универсальность: Применим к огромному классу моделей (линейная регрессия, GLM, смеси распределений).

Пример: Оценка параметра λ экспоненциального распределения.

import numpy as np
from scipy.optimize import minimize_scalar

# Генерируем данные из экспоненциального распределения с λ = 0.5 (scale = 2)
true_lambda = 0.5
data = np.random.exponential(scale=1/true_lambda, size=1000)

# Функция правдоподобия для эксп. распределения: L(λ) = Π λ * exp(-λ * x_i)
# Логарифмируем для удобства (логарифм — монотонная функция, максимум тот же).
# Log-L(λ) = n*log(λ) - λ * Σ x_i
n = len(data)
sum_x = np.sum(data)

# Определяем отрицательное лог-правдоподобие (минимизируем его)
def neg_log_likelihood(lambda_param):
    if lambda_param <= 0:
        return np.inf
    return - (n * np.log(lambda_param) - lambda_param * sum_x)

# Находим минимум (максимум правдоподобия)
result = minimize_scalar(neg_log_likelihood, bounds=(0.001, 10), method='bounded')
estimated_lambda = result.x

print(f"Истинный λ: {true_lambda:.3f}")
print(f"Оценка MLE для λ: {estimated_lambda:.3f}")  # Будет близко к 0.5
print(f"Аналитическое решение (n / Σ x_i): {n / sum_x:.3f}")  # Проверка

Связь с машинным обучением: Минимизация функции потерь (например, MSE в линейной регрессии при нормальности ошибок) эквивалентна максимизации правдоподобия.

Ответ 18+ 🔞

А, ну вот, метод максимального правдоподобия, ёпта! Это ж классика, как водка с огурцом. Сейчас объясню на пальцах, без всей этой академической пурги.

Представь, что ты криминалист, а у тебя есть данные — отпечатки, улики. Твоя модель — это версия, кто преступник. Параметры модели — это рост, вес, цвет волос подозреваемого. MLE — это такой подход, где ты подбираешь параметры (ну, типа, ищешь подозреваемого) так, чтобы твои наблюдаемые улики (данные) выглядели максимально вероятными, будто они именно от него и остались. То есть, ты отвечаешь на вопрос: «При каком наборе параметров мои данные были бы наименее удивительными?». Если отпечатки совпали — охуенно, правдоподобие зашкаливает, ты нашел своего пидараса шерстяного.

Если по-умному: Есть модель с какими-то неизвестными костылями (параметры θ) и куча данных X. Оценка по MLE — это такие значения θ̂, при которых вероятность увидеть наши конкретные данные P(X|θ) — максимальна. Проще говоря, мы крутим ручки настройки, пока модель не начнёт плеваться такими результатами, которые больше всего похожи на то, что мы в реальности наблюдали.

А нахуя это всё? Да потому что доверия ебать ноль к другим методам, когда данных дохуя! У MLE есть крутые асимптотические плюшки: когда данных овердохуища, его оценки становятся несмещёнными, состоятельными и самыми точными (с минимальной дисперсией). И применим он везде — от линейной регрессии до каких-нибудь ебаных смесей гауссиан.

Смотри на практике, как λ для экспоненциального распределения ищем:

import numpy as np
from scipy.optimize import minimize_scalar

# Сгенерируем данные как будто из реальности, где λ = 0.5
true_lambda = 0.5
data = np.random.exponential(scale=1/true_lambda, size=1000)

# Сама функция правдоподобия. Логарифмируем, потому что с логарифмами проще не **ебушки-воробушки** вытанцовывать, а считать.
n = len(data)
sum_x = np.sum(data)

def neg_log_likelihood(lambda_param):
    if lambda_param <= 0:  # Лямбда не может быть отрицательной, иначе пиздец
        return np.inf
    return - (n * np.log(lambda_param) - lambda_param * sum_x)

# Ищем минимум этой отрицательной логарифмической функции (что то же самое, что и максимум правдоподобия)
result = minimize_scalar(neg_log_likelihood, bounds=(0.001, 10), method='bounded')
estimated_lambda = result.x

print(f"Настоящий λ, который мы спрятали: {true_lambda:.3f}")
print(f"Оценка MLE, которую мы выцарапали из данных: {estimated_lambda:.3f}")
print(f"Проверка по формуле (n / Σ x_i), чтоб не **бздеть**: {n / sum_x:.3f}")

И знаешь, что самое охуенное? В машинке почти все популярные потери — это просто замаскированный MLE. Минимизируешь ты, допустим, MSE в линейной регрессии, а на самом деле неявно предполагаешь, что ошибки нормально распределены, и хуй с горы — ты максимизируешь правдоподобие! Всё взаимосвязано, как в хорошем детективе.

Видео-ответы

▶

100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование Junior / Middle | Июль 2022

Ответ

Ответ 18+ 🔞

Видео-ответы

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки