В чем преимущество медианы над средним арифметическим?

Ответ

Ключевое преимущество медианы — робастность (устойчивость) к выбросам и асимметричным распределениям. Среднее арифметическое (mean) чувствительно ко всем значениям в выборке, в то время как медиана (median) зависит только от центрального значения в упорядоченном ряду.

Техническое объяснение:

  • Среднее: μ = (Σx_i) / n. Один экстремальный выброс значительно смещает результат.
  • Медиана: Значение, которое делит упорядоченную выборку пополам. Для его изменения нужно изменить множество центральных точек.

Пример на Python:

import numpy as np

# Данные с выбросом (например, зарплаты в компании)
salaries = [45000, 52000, 48000, 51000, 49000, 1200000]  # Выброс - 1.2M

mean_salary = np.mean(salaries)
median_salary = np.median(salaries)

print(f"Средняя зарплата: {mean_salary:.0f} руб.")  # Вывод: ~ 235833 руб.
print(f"Медианная зарплата: {median_salary:.0f} руб.")  # Вывод: 50500 руб.

В этом примере среднее (235 тыс.) не отражает типичную зарплату из-за одного выброса, тогда как медиана (50.5 тыс.) дает реалистичную оценку "центра" распределения.

Когда использовать медиану:

  • При работе с зашумленными данными или данными, содержащими выбросы (финансы, метрики производительности, геоданные).
  • Для описания "типичного" значения в сильно скошенных распределениях (логарифмически нормальных, Парето).
  • В качестве целевой метрики в задачах регрессии, где важна устойчивость (например, Median Absolute Error).

Ответ 18+ 🔞

Вот, смотри, объясняю на пальцах, как есть. Главный козырь медианы — она, блядь, не парится на счёт выбросов. Представь себе: среднее арифметическое — это такой паникёр, который охуевает от каждого нового числа, особенно если оно в десять раз больше остальных. А медиана — это спокойный чувак в центре, которому похуй на крайних психов. Ему важно только одно: кто в середине стоит.

Если по-технически:

  • Среднее (mean): Берёшь ВСЕ числа, складываешь и делишь на количество. Один долбоёб с запредельным значением — и вся картина к ебеням, среднее улетает в космос.
  • Медиана (median): Выстраиваешь всех по росту и смотришь, кто ровно посередине. Чтобы её сдвинуть, надо подменить половину выборки, а один выброс — как слону дробина.

Сейчас на коде покажу, тут просто пиздец:

import numpy as np

# Допустим, зарплаты в конторе. Все нормальные, а один — директор или просто ворюга.
salaries = [45000, 52000, 48000, 51000, 49000, 1200000]  # Этот последний — явный выброс, ядрёна вошь!

mean_salary = np.mean(salaries)
median_salary = np.median(salaries)

print(f"Средняя зарплата: {mean_salary:.0f} руб.")  # Выдаст: ~ 235833 руб. — пиздец как нереально!
print(f"Медианная зарплата: {median_salary:.0f} руб.")  # Выдаст: 50500 руб. — вот это уже похоже на правду.

Видишь разницу? Средняя в 235 тысяч — это ёперный театр, потому что один упырь с зарплатой в лям два всех обмазал. А медиана в 50.5 тысяч — это реальная картина для обычного работяги. Доверия к среднему тут — ноль ебать.

Так когда же эту медиану в дело пускать?

  • Когда данные с глюками и выбросами, которых, блядь, как грязи (финансы, замеры скорости, всякие геоданные).
  • Когда распределение кривое, как рога барана — все значения скучковались в одном углу, а хвост тянется в бесконечность.
  • В машинном обучении, когда хочется, чтобы модель не охуевала от редких, но мощных аномалий. Есть даже специальная метрика — Median Absolute Error, она как раз для таких упрямых случаев.

Короче, запомни: хочешь узнать типичную ситуацию, игнорируя уродов-богатеев или просто ошибки в данных — бери медиану. Среднее оставь для идеальных, ровненьких мирков, которых в жизни, если честно, почти не бывает.