Что такое Hadoop?

Question

Что такое Hadoop?

Тип вопроса: Hadoop и HDFS Вероятность: 33% Категория: Data Инженер

Ответ

Apache Hadoop — это open-source фреймворк для распределенной обработки и хранения очень больших наборов данных (Big Data) на кластерах из стандартного оборудования. Его основная сила — в способности масштабироваться от одного сервера до тысяч машин, каждая из которых предоставляет свои вычислительные ресурсы и дисковое пространство.

Hadoop состоит из четырех ключевых модулей:

Hadoop Common (Общие утилиты): Набор библиотек и утилит, необходимых другим модулям.
Hadoop Distributed File System (HDFS): Распределенная файловая система, предназначенная для хранения данных на множестве машин с высокой отказоустойчивостью.
- NameNode: Управляет метаданными файловой системы (иерархия файлов, блоки данных).
- DataNode: Хранит фактические блоки данных на локальных дисках.
Hadoop YARN (Yet Another Resource Negotiator): Фреймворк для управления ресурсами кластера и планирования задач. Он отвечает за выделение вычислительных ресурсов (CPU, память) различным приложениям, работающим на кластере (например, MapReduce, Spark).
Hadoop MapReduce: Программная модель для параллельной обработки больших данных. Задача разбивается на этапы Map (фильтрация и сортировка) и Reduce (агрегация результатов).

Пример классической задачи WordCount на MapReduce (Java):

// Mapper
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);
        while (tokenizer.hasMoreTokens()) {
            word.set(tokenizer.nextToken());
            context.write(word, one); // Вывод: (слово, 1)
        }
    }
}

// Reducer
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get(); // Суммируем все единицы для каждого слова
        }
        context.write(key, new IntWritable(sum)); // Вывод: (слово, общее_количество)
    }
}

Экосистема Hadoop: Со временем вокруг ядра Hadoop выросла огромная экосистема инструментов для различных задач:

Хранение: HBase (NoSQL база данных), Hive (SQL-интерфейс).
Обработка: Apache Spark (быстрая in-memory обработка), Apache Flink (потоковая обработка).
Ингestion: Apache Kafka, Apache Sqoop.
Оркестрация: Apache Oozie, Apache Airflow.

Современный контекст: Хотя "чистый" MapReduce сейчас используется реже из-за более быстрых фреймворков вроде Spark, HDFS и YARN остаются фундаментальными компонентами многих Big Data-платформ, а принципы, заложенные в Hadoop, лежат в основе современных облачных сервисов данных.

Ответ 18+ 🔞

Давай разжую тебе про этот ваш Hadoop, чтоб понятно стало, как дважды два — четыре, а то некоторые думают, что это такая мартышлюшка, которая всё сама умеет.

Представь, что у тебя есть овердохуища данных. Не просто гигабайты, а терабайты, петабайты, хуй с горы. Обычный комп с этим справиться не может, он просто накроется медным тазом и скажет «доверия ебать ноль». Вот для этого и придумали Apache Hadoop.

Если по-простому, то это такая штука, которая раскидывает твои данные и вычисления по куче обычных серверов, чтобы они все вместе, как муравьи, эту гору перетаскали. И состоит эта система из четырёх основных кирпичей, без которых нихуя не работает.

Первое — Hadoop Common. Это как набор общих инструментов, гаечных ключей и отвёрток, которые нужны всем остальным, чтобы не пришлось каждый раз из говна и палок велосипед собирать. Без этого — пизда рулю.

Второе — HDFS, распределённая файловая система. Вот тут самое интересное. Представь, что у тебя есть огроменный фильм. Вместо того чтобы пытаться запихнуть его на одну флешку, система режет его на куски и раскидывает по всем серверам в кластере. А чтобы не потерять, каждый кусок ещё и копии делает. Управляет этим бардаком NameNode — он главный по тарелкам, знает, где что лежит. А сами куски данных хранятся на DataNode — это такие рабочие лошадки с жёсткими дисками. Если одна лошадка сдохнет — не беда, кусок найдётся на другой. Хитро, да? Волнение ебать — а система не парится.

Третье — YARN. А это, ёпта, главный распределитель ресурсов. Когда на кластер приходит куча задач, кто-то же должен решать, кому сколько оперативки и процессорного времени дать. Вот YARN и есть такой умный диспетчер, который кричит: «Э, бошка думай! Вася, тебе два ядра, Петя, тебе гигабайт памяти, а ты, новенький Spark, вообще на хуй иди, пока очередь не подошла». Без него был бы пиздец и драка за ресурсы.

Четвёртое — MapReduce. Это уже модель для самих вычислений. Она делит задачу на два этапа. Сначала Map — как будто ты рассыпал гору гречки по столу и отсортировал её от мусора. Потом Reduce — ты собираешь отсортированную гречку обратно в пакеты и считаешь, сколько получилось. Классический пример — посчитать, сколько раз каждое слово встречается в тексте.

Вот, смотри, как это выглядит в коде, тут всё серьёзно, терпения ноль ебать, но разберёмся:

// Mapper (Этап "Разбросать и пометить")
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1); // Вот эта единичка — наша метка
    private Text word = new Text();

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString(); // Берём строку текста
        StringTokenizer tokenizer = new StringTokenizer(line); // Дробим на слова
        while (tokenizer.hasMoreTokens()) {
            word.set(tokenizer.nextToken()); // Берём слово
            context.write(word, one); // И пишем: (слово, 1). Типа "вот, я это слово один раз видел!"
        }
    }
}

// Reducer (Этап "Собрать и посчитать")
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get(); // Собираем все единички для одного слова
        }
        context.write(key, new IntWritable(sum)); // Выдаём результат: (слово, сколько_раз_встретилось)
    }
}

Работает это так: тысячи таких мапперов ползают по кускам данных и ставят единички, а потом редьюсеры их все собирают. Удивление пиздец, но так можно обработать хоть все книги интернета.

Но это ещё не всё, чувак. Вокруг этого ядра выросла целая ебушки-воробушки экосистема, как грибы после дождя:

Для хранения: HBase — быстрая NoSQL-база, Hive — который позволяет тыкать в данные SQL-запросами, как будто это обычная табличка.
Для обработки: Apache Spark — это уже крутой спорткар, который работает в памяти и летает быстрее старого MapReduce. Apache Flink — для потоковых данных, чтобы обрабатывать их прямо в полёте.
Для загрузки данных: Kafka, Sqoop — такие шлюзы, которые таскают данные туда-сюда.
Для управления процессами: Oozie, Airflow — чтобы выстраивать эти сложные пайплайны и не сойти с ума.

Какого хуя он сейчас нужен, спросишь? Чистый MapReduce уже немного устарел, он как старый добрый трактор — надёжный, но не самый быстрый. Однако HDFS и YARN — это до сих пор фундамент, на котором стоят многие современные штуки. Принципы, которые заложили в Hadoop, — это как азбука для Big Data. Так что, хоть сейчас все и бегут на Spark, понимать, с чего всё началось, — это, бля буду, уважение к истории. А без этого ты просто полупидор, который знает только одну кнопку.

Ответ

Ответ 18+ 🔞

Оформление подписки

Международная оплата

Вход на сайт

Введите код

Оформление подписки