Ответ
Валидность метки можно проверить несколькими способами:
- Сравнение с ground truth – если есть эталонные данные, проверяем точность метки (accuracy, precision, recall).
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(true_labels, predicted_labels)
-
Логическая проверка – метка должна соответствовать бизнес-логике (например, сумма заказов не может быть отрицательной).
-
Статистические аномалии – анализируем распределение метки на выбросы и некорректные значения.
import seaborn as sns
sns.boxplot(data['label'])
-
A/B-тестирование – если метка используется в модели, проверяем её влияние на ключевые метрики.
-
Ручная выборочная проверка – ревью реальных случаев (например, 100 случайных записей).
Метка валидна, если проходит все проверки без критических расхождений.