|| -------------------------------------------------------------------------------------------------- ||
|| ---																							  --- ||
|| ---																		  					  --- ||
|| --- 		    Conjunto de passos para configuração do Hadoop em Cluster (Ex. GradeP) 			  --- ||
|| ---                                  (GPPD - GradeP 201)							  			  --- ||
|| ---																		  					  --- ||
|| ---																		  					  --- ||
|| -------------------------------------------------------------------------------------------------- ||

[1] Acesso ao nó principal do cluster:

ssh user@gradep.inf.ufrgs.br

[1.1] Acesso ao nó Hadoop master (namenode/jobtracker)

ssh compute-0-0

[2] Copiar o Hadoop (Hadoop 1.X):

wget http://ftp.unicamp.br/pub/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

[2.1] Descompactar o Hadoop:

tar xvf hadoop-1.2.1.tar.gz
cd hadoop-1.2.1

[3] Configurar arquivos Hadoop quanto:

[3.1] ../hadoop-1.2.1/conf/core-site.xml (Definição do diretório do HDFS e máquina que irá rodar o namenode)

<property>
  <name>hadoop.tmp.dir</name>
  <value>/state/partition1/hadoop/hdfs</value>
</property>

<property>
  <name>fs.default.name</name>
  <value>hdfs://compute-0-0:8000</value>
</property>

[3.2] ../hadoop-1.2.1/conf/hadoop-env.sh (Definição do caminho de instalação do Java (JRE))

export JAVA_HOME=/usr/java/latest

[3.3] ../hadoop-1.2.1/conf/hdfs-site.xml (Definição do número de réplicas do HDFS)

<property>
   <name>dfs.replication</name>
   <value>3</value>
</property>

[3.4] ../hadoop-1.2.1/conf/mapred-site.xml (Definição da máquina que irá rodar o namenode)

<property>
   <name>mapred.job.tracker</name>
   <value>compute-0-0:8010</value>
</property>

[3.5] ../hadoop-1.2.1/conf/slaves

Popular o número de nós escravos que irão rodar uma instância de datanode e tasktracker.
Na GradeP (201) a lista irá conter o intervalo de nós que vão de compute-0-1 a compute-0-11 (11 nós slaves).

[4] Criar o diretório HDFS e definir permissões de usuário (Na GradeP utiliza-se um usuário chamado erad2015)

tentakel sudo chown -hR erad2015:erad2015 /state/partition1/hadoop/hdfs
tentakel sudo chmod 770 -Rf /state/partition1/hadoop/hdfs

[5] Definir variáveis de ambiente no path do usuário (.bashrc) que indicam a instalação do Hadoop.

export HADOOP_HOME=/hadoop
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$HADOOP_HOME/bin

[6] Criar o diretório Hadoop e definir permissões de usuário (Na GradeP utiliza-se um usuário chamado erad2015)

tentakel sudo chown -hR erad2015:erad2015 /hadoop/
tentakel sudo chmod 770 -Rf hadoop

[7] Copiar a pasta do Hadoop para os nós escravos do cluster (Na GradeP a operação é feita com o comando tentakel)

tentakel cp -Rf /home/erad2015/hadoop-1.2.1/ /hadoop

[8] Formatar inicialmente o namenode (HDFS)

hadoop namenode -format

[9] Iniciar o Hadoop.

start-all.sh

|| -------------------------------------------------------------------------------------------------- ||
|| ---																							  --- ||
|| ---																		  					  --- ||
|| --- 		    Conjunto de passos para configuração do Hadoop em Cluster (Ex. GradeP) 			  --- ||
|| ---                           (Microsoft - Azure IaaS erad2015hadoop)						  --- ||
|| ---																		  					  --- ||
|| ---																		  					  --- ||
|| -------------------------------------------------------------------------------------------------- ||

Conjunto de passos Azure (Configuracao):

[1] Criação e configuração básica das VMs Linux (Ubuntu 14.04 LTS)

- Usuário deverá criar manualmente 12 VMs IaaS D1 via portal de azure (https://manage.windowsazure.com)
- Usuário deverá criar 12 discos externos do tipo blob e conectar cada um a uma VM distinta.
- Cada disco deverá ser manualmente formatado e conectado e montado na VM Linux.

[2] Acesso ao nó principal do cluster (Hadoop master (namenode/jobtracker))

ssh erad2015@erad2015hadoop.cloudapp.net
source .bashrc

[3] Instalação manual do Java e do PSSH (Deve ser feito manualmente em cada VM)

apt-get install install pssh -y
pssh apt-get install openjdk-6-jre -y

[4] Geração de chaves SSH entre a máquina mestre (compute-0-0) e as demais máquinas escravas.

ssh-keygen
ssh-copy-id erad2015@compute-0-X:

[5] Copiar o Hadoop (Hadoop 1.X):

wget http://ftp.unicamp.br/pub/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

[6] Descompactar o Hadoop:

tar xvf hadoop-1.2.1.tar.gz
cd hadoop-1.2.1

[7] Configurar arquivos Hadoop quanto:

[7.1] ../hadoop-1.2.1/conf/core-site.xml (Definição do diretório do HDFS e máquina que irá rodar o namenode)

<property>
  <name>hadoop.tmp.dir</name>
  <value>/hadoop/hdfs</value>
</property>

<property>
  <name>fs.default.name</name>
  <value>hdfs://compute-0-0:8000</value>
</property>

[7.2] ../hadoop-1.2.1/conf/hadoop-env.sh (Definição do caminho de instalação do Java (JRE))

export JAVA_HOME=/usr

[7.3] ../hadoop-1.2.1/conf/hdfs-site.xml (Definição do número de réplicas do HDFS)

<property>
   <name>dfs.replication</name>
   <value>3</value>
</property>

[7.4] ../hadoop-1.2.1/conf/mapred-site.xml (Definição da máquina que irá rodar o namenode)

<property>
   <name>mapred.job.tracker</name>
   <value>compute-0-0:8010</value>
</property>

[7.5] ../hadoop-1.2.1/conf/slaves

Popular o número de nós escravos que irão rodar uma instância de datanode e tasktracker.
No cluster Azure a lista irá conter o intervalo de nós que vão de compute-0-1 a compute-0-11 (11 nós slaves).

[8] Criar o diretório HDFS e definir permissões de usuário (Na Azure o comando deverá ser feito através do PSSH)

pssh mkdir /hadoop/hdfs
pssh chmod 770 -Rf /hadoop/hdfs

[9] Definir variáveis de ambiente no path do usuário (.bashrc) que indicam a instalação do Hadoop.

export HADOOP_HOME=/hadoop
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$HADOOP_HOME/bin

[10] Criar o diretório Hadoop e definir permissões de usuário (Na Azure o comando deverá ser feito através do PSSH)

pssh chown -hR erad2015:erad2015 /hadoop/
pssh chmod 770 -Rf hadoop

[11] Copiar a pasta do Hadoop para os nós escravos da cloud (Na Azure o comando deverá ser feito através do SCP)

scp -r hadoop-1.2.1 erad2015@compute-0-X:/hadoop

[12] Formatar inicialmente o namenode (HDFS)

hadoop namenode -format

[13] Iniciar o Hadoop.