Встречался ли с Serializable в Python?

Question

Встречался ли с Serializable в Python?

Тип вопроса: Python Вероятность: 33% Категория: Data Инженер

Ответ

Да, в контексте Python под Serializable обычно понимают объекты, которые можно сериализовать — то есть преобразовать в поток байтов для сохранения или передачи. В Python это реализуется с помощью модулей pickle или json.

Ключевые моменты:

pickle: Основной модуль для сериализации объектов Python. Не все объекты сериализуемы (например, открытые файлы или соединения с БД).
Протокол __getstate__ и __setstate__: Позволяют кастомизировать процесс сериализации/десериализации для сложных объектов.

Пример сериализации пользовательского класса:

import pickle

class DataPoint:
    def __init__(self, x, y, label):
        self.x = x
        self.y = y
        self.label = label

    # При необходимости можно определить, как объект будет сериализован
    def __getstate__(self):
        state = self.__dict__.copy()
        # Например, можно не сериализовать вычисляемое поле
        # del state['computed_field']
        return state

    def __setstate__(self, state):
        self.__dict__.update(state)

# Создание и сериализация объекта
point = DataPoint(10, 20, "A")
serialized = pickle.dumps(point)

# Десериализация
deserialized_point = pickle.loads(serialized)
print(deserialized_point.x, deserialized_point.label)  # 10 A

На практике с этим сталкиваешься при кэшировании объектов на диск, использовании многопроцессорной обработки (multiprocessing) или работе с распределёнными системами вроде Apache Spark (где функции, передаваемые в rdd.map(), должны быть сериализуемыми).

Ответ 18+ 🔞

А, ну это про то, когда твой объект нужно превратить в байтики, чтобы запихнуть куда-нибудь или по сети швырнуть. В Питоне за это отвечают pickle и json, если по-простому.

Суть в двух словах, ёпта:

pickle: Это наш, родной, основной способ. Берёт почти любой питонячий объект и делает из него поток байтов. Ключевое слово — почти. Не всё можно так просто упаковать. Например, открытый файл или соединение с базой — это пиздец, а не объект для сериализации, с ними так не выйдет.
Волшебные методы __getstate__ и __setstate__: Вот это уже для продвинутых, когда твой объект — хитрая жопа с сюрпризом внутри. Они позволяют тебе самому решать, что именно из объекта ты хочешь сохранить, а что — нахуй не нужно, и как потом это всё собрать обратно.

Смотри, как это выглядит на практике:

import pickle

class DataPoint:
    def __init__(self, x, y, label):
        self.x = x
        self.y = y
        self.label = label

    # Если захочешь поконтролировать процесс упаковки
    def __getstate__(self):
        state = self.__dict__.copy()
        # Допустим, тут есть какое-то поле, вычисляемое на лету, которое сериализовать смысла нет
        # del state['computed_field'] # Просто выкидываем его нахуй
        return state

    # А тут говорим, как распаковать обратно
    def __setstate__(self, state):
        self.__dict__.update(state)

# Создаём объект и прессуем его в байты
point = DataPoint(10, 20, "A")
serialized = pickle.dumps(point) # Вот он, наш сериализованный кусок

# А теперь разворачиваем обратно, как будто ничего и не было
deserialized_point = pickle.loads(serialized)
print(deserialized_point.x, deserialized_point.label)  # Выведет: 10 A

Где с этим сталкиваешься? Да везде, блядь! Захотел кеш на диск сбросить — сериализуй. Запускаешь multiprocessing и гоняешь задачи по ядрам — функции и данные должны уметь превращаться в байты. Или, ебать мои старые костыли, работаешь с Apache Spark — там вообще всё, что ты в rdd.map() суёшь, должно быть сериализуемым, иначе будет тебе хиросима, а не обработка данных. В общем, штука нужная.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки