Hadoop – Многоузловой кластер

В этой главе описывается настройка многоузлового кластера Hadoop в распределенной среде. Поскольку весь кластер не может быть продемонстрирован, мы объясняем кластерную среду Hadoop, используя три…

Hadoop – Streaming (Стриминг)

Потоковая передача Hadoop – это утилита, поставляемая с дистрибутивом Hadoop. Эта утилита позволяет создавать и запускать задания Map / Reduce с любым исполняемым файлом или скриптом…

Hadoop – MapReduce

MapReduce – это фреймворк, с помощью которого мы можем писать приложения для параллельной обработки огромных объемов данных на больших кластерах стандартного оборудования. Что такое MapReduce?…

Hadoop – Операции HDFS

Запуск HDFS Сначала необходимо отформатировать настроенную файловую систему HDFS, открыть namenode (сервер HDFS) и выполнить следующую команду. $ hadoop namenode -format После форматирования HDFS запустите…

Hadoop – Настройка среды

Hadoop поддерживается платформой GNU / Linux и ее разновидностями. Поэтому нам нужно установить операционную систему Linux для настройки среды Hadoop.  Если у вас есть ОС, отличная…

Hadoop – Обзор HDFS

Файловая система Hadoop была разработана с использованием распределенной файловой системы. Она запускается на обычных доступных компьютерах. В отличие от других распределенных систем, HDFS обладает высокой отказоустойчивостью и…

Hadoop – Введение

Hadoop – это платформа с открытым исходным кодом Apache, написанная на Java, которая позволяет распределенную обработку больших наборов данных по кластерам компьютеров с использованием простых…

Hadoop – Решения для больших данных

Традиционный подход При таком подходе у предприятия будет компьютер для хранения и обработки больших данных. Для целей хранения программисты воспользуются выбором поставщиков баз данных, таких как…