Ответ
Ключевое преимущество медианы — робастность (устойчивость) к выбросам и асимметричным распределениям. Среднее арифметическое (mean) чувствительно ко всем значениям в выборке, в то время как медиана (median) зависит только от центрального значения в упорядоченном ряду.
Техническое объяснение:
- Среднее:
μ = (Σx_i) / n. Один экстремальный выброс значительно смещает результат. - Медиана: Значение, которое делит упорядоченную выборку пополам. Для его изменения нужно изменить множество центральных точек.
Пример на Python:
import numpy as np
# Данные с выбросом (например, зарплаты в компании)
salaries = [45000, 52000, 48000, 51000, 49000, 1200000] # Выброс - 1.2M
mean_salary = np.mean(salaries)
median_salary = np.median(salaries)
print(f"Средняя зарплата: {mean_salary:.0f} руб.") # Вывод: ~ 235833 руб.
print(f"Медианная зарплата: {median_salary:.0f} руб.") # Вывод: 50500 руб.
В этом примере среднее (235 тыс.) не отражает типичную зарплату из-за одного выброса, тогда как медиана (50.5 тыс.) дает реалистичную оценку "центра" распределения.
Когда использовать медиану:
- При работе с зашумленными данными или данными, содержащими выбросы (финансы, метрики производительности, геоданные).
- Для описания "типичного" значения в сильно скошенных распределениях (логарифмически нормальных, Парето).
- В качестве целевой метрики в задачах регрессии, где важна устойчивость (например,
Median Absolute Error).
Ответ 18+ 🔞
Вот, смотри, объясняю на пальцах, как есть. Главный козырь медианы — она, блядь, не парится на счёт выбросов. Представь себе: среднее арифметическое — это такой паникёр, который охуевает от каждого нового числа, особенно если оно в десять раз больше остальных. А медиана — это спокойный чувак в центре, которому похуй на крайних психов. Ему важно только одно: кто в середине стоит.
Если по-технически:
- Среднее (mean): Берёшь ВСЕ числа, складываешь и делишь на количество. Один долбоёб с запредельным значением — и вся картина к ебеням, среднее улетает в космос.
- Медиана (median): Выстраиваешь всех по росту и смотришь, кто ровно посередине. Чтобы её сдвинуть, надо подменить половину выборки, а один выброс — как слону дробина.
Сейчас на коде покажу, тут просто пиздец:
import numpy as np
# Допустим, зарплаты в конторе. Все нормальные, а один — директор или просто ворюга.
salaries = [45000, 52000, 48000, 51000, 49000, 1200000] # Этот последний — явный выброс, ядрёна вошь!
mean_salary = np.mean(salaries)
median_salary = np.median(salaries)
print(f"Средняя зарплата: {mean_salary:.0f} руб.") # Выдаст: ~ 235833 руб. — пиздец как нереально!
print(f"Медианная зарплата: {median_salary:.0f} руб.") # Выдаст: 50500 руб. — вот это уже похоже на правду.
Видишь разницу? Средняя в 235 тысяч — это ёперный театр, потому что один упырь с зарплатой в лям два всех обмазал. А медиана в 50.5 тысяч — это реальная картина для обычного работяги. Доверия к среднему тут — ноль ебать.
Так когда же эту медиану в дело пускать?
- Когда данные с глюками и выбросами, которых, блядь, как грязи (финансы, замеры скорости, всякие геоданные).
- Когда распределение кривое, как рога барана — все значения скучковались в одном углу, а хвост тянется в бесконечность.
- В машинном обучении, когда хочется, чтобы модель не охуевала от редких, но мощных аномалий. Есть даже специальная метрика —
Median Absolute Error, она как раз для таких упрямых случаев.
Короче, запомни: хочешь узнать типичную ситуацию, игнорируя уродов-богатеев или просто ошибки в данных — бери медиану. Среднее оставь для идеальных, ровненьких мирков, которых в жизни, если честно, почти не бывает.