Apache Kafka – Основы

Прежде чем углубляться в Kafka, вы должны знать основные термины, такие как темы, брокеры, производители и потребители. Следующая диаграмма иллюстрирует основные термины, а таблица подробно описывает…

Apache Kafka – Введение

В больших данных используется огромный объем данных. Что касается данных, у нас есть две основные проблемы. Первая задача состоит в том, как собрать большой объем данных,…

Advanced Spark – Программирование

Spark содержит два различных типа общих переменных: один – широковещательные переменные, а второй – аккумуляторы . Широковещательные переменные – используются для эффективного распределения больших значений. Аккумуляторы – используются для агрегирования информации…

Apache Spark – Развертывание

Приложение Spark, использующее spark-submit, – это команда оболочки, используемая для развертывания приложения Spark в кластере. Он использует все соответствующие менеджеры кластеров через единый интерфейс. Поэтому вам не…

Apache Spark – основное программирование

Spark Core – основа всего проекта. Он обеспечивает распределенную диспетчеризацию задач, планирование и основные функции ввода / вывода. Spark использует специализированную фундаментальную структуру данных, известную как RDD…

Apache Spark – Установка

Spark – это подпроект Hadoop. Поэтому лучше установить Spark в систему на основе Linux. Следующие шаги показывают, как установить Apache Spark. Шаг 1. Проверка установки Java Установка…

Apache Spark – RDD

Эластичные распределенные наборы данных Эластичные распределенные наборы данных (RDD) – это фундаментальная структура данных Spark. Это неизменяемая распределенная коллекция объектов. Каждый набор данных в RDD разделен на…

Apache Spark – Введение

Отрасли широко используют Hadoop для анализа своих наборов данных. Причина в том, что платформа Hadoop основана на простой модели программирования (MapReduce) и обеспечивает вычислительное решение, которое…

Hive – Представления и индексы

В этой главе описывается, как создавать и управлять представлениями. Представления создаются на основе требований пользователя. Вы можете сохранить любые данные набора результатов в виде представления. Использование представления в…