Como aprender Hadoop facilmente

HortonworksSe você está estudando Big Data, certamente deve ter se deparado com Hadoop em seus estudos. A plataforma é voltada para clusters e processamento de grandes massas de dados, possui inúmeros projetos relacionados e permite fazer coisas incríveis.

Hadoop é um projeto livre da Apache Foundation, é composto principalmente pelo Hadoop Distributed File System (HDFS), Hadoop YARN e Hadoop MapReduce. Possui também projetos relacionados, como o Ambari, Avro, HBase, Hive, Mahout, Pig, ZooKeeper entre dezenas de outros. Você pode entrar no site oficial do Hadoop, baixar, instalar e configurar cada um de seus componentes, mas acredite, é um trabalho que vai levar um bom tempo já que terá de executar esse procedimento para cada componente que baixar.

Distribuições Hadoop

Para facilitar a nossa vida, algumas empresas “empacotaram” o Hadoop e seus componentes, também ofereceram um gerenciador único para controlar todo o cluster incluindo seus componentes adicionais. É algo semelhante a distribuições GNU/Linux, o Kernel sozinho não torna seu computador muito útil, é necessário um conjunto de ferramentas para que você consiga fazer algo produtivo.

Essas distribuições Hadoop oferecem um ambiente pronto, você só precisa instalar e começar a utilizar.

Hortonworks

Vou falar um pouco da Hortonworks, que é uma das principais distribuições e uma das mais simples para quem quer colocar a mão na massa rapidamente. Para facilitar todo o trabalho, a Hortonworks oferece uma imagem Virtualbox pronta, você só precisa baixar e subir uma máquina virtual, já estará com ambiente Hadoop prontinho para começar a usar. Além disso, a Hortonworks oferece uma boa variedade de tutoriais, com problemas reais que podem ser resolvidos via Hadoop, desde um Hello World, até processamento de dados com Pig, Hive, HBase, etc.

Para começar, é bem simples, basta baixar a imagem Virtualbox do Hortonworks Sandbox;

A imagem é um CentOS com todo Hortonworks Data Plataform (HDP) funcional. Você pode acessar via SSH ou usar a própria interface web que a distribuição oferece, acessível via http://127.0.0.1:8888/

É possível também habilitar e desabilitar serviços, importar dados, trabalhar com MapReduce, HBase e demais ferramentas.

O mais legal é utilizar os exemplos reais para entender como todo conjunto de ferramentas funciona. Tem tarefas simples, como processar logs até tarefas mais complexas, como trabalhar com análise de sentimentos. Veja e siga os tutoriais da página de exemplos reais.

Com o Hortonworks Data Plataform (HDP) é possível iniciar rapidamente estudos com Big Data, seguindo tutoriais de casos reais. No começo é normal se assustar com tantas siglas e ferramentas novas, mas não se assuste, ao seguir os tutoriais, você entenderá facilmente para que serve cada uma das ferramentas.

E claro, tempo e dedicação são necessários para assimilar todo o conjunto, mas é bem divertido, acredite! 🙂