Что такое merge

«Что такое merge» — вопрос из категории Pandas, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Объединение (merge) — это операция соединения двух таблиц по общему ключу. В SQL соответствует JOIN, в pandas — методу merge(). Основные типы слияния:

  • INNER — только совпадающие строки
  • LEFT/RIGHT — все строки из левой/правой таблицы + совпадения
  • OUTER — все строки из обеих таблиц

Пример в pandas:

merged_df = pd.merge(
    left=df1,
    right=df2,
    how='inner',
    on='customer_id'
)

Ключевые параметры: on (столбец для соединения), how (тип соединения), suffixes (суффиксы для одинаковых столбцов). Важно проверять дубликаты в ключевых столбцах перед слиянием.