Приведи пример кластеризации

«Приведи пример кластеризации» — вопрос из категории Машинное обучение, который задают на 33% собеседований Аналитик Данных. Ниже — развёрнутый ответ с разбором ключевых моментов.

Ответ

Кластеризация — это метод машинного обучения без учителя, который группирует данные по схожести. Один из популярных алгоритмов — K-Means.

Пример на Python с библиотекой sklearn:

from sklearn.cluster import KMeans
import numpy as np

# Пример данных: координаты точек
data = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])

# Кластеризация (2 кластера)
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(data)

# Результаты
print("Метки кластеров:", kmeans.labels_)
print("Центроиды:", kmeans.cluster_centers_)

Вывод:

  • Метки покажут, к какому кластеру принадлежит каждая точка.
  • Центроиды — средние точки кластеров.

Для выбора оптимального числа кластеров можно использовать метод локтя (Elbow Method).