|| -------------------------------------------------------------------------------------------------- ||
|| --- --- ||
|| --- --- ||
|| --- Conjunto de passos para configuração do Hadoop em Cluster (Ex. GradeP) --- ||
|| --- (GPPD - GradeP 201) --- ||
|| --- --- ||
|| --- --- ||
|| -------------------------------------------------------------------------------------------------- ||
[1] Acesso ao nó principal do cluster:
ssh user@gradep.inf.ufrgs.br
[1.1] Acesso ao nó Hadoop master (namenode/jobtracker)
ssh compute-0-0
[2] Copiar o Hadoop (Hadoop 1.X):
wget http://ftp.unicamp.br/pub/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
[2.1] Descompactar o Hadoop:
tar xvf hadoop-1.2.1.tar.gz
cd hadoop-1.2.1
[3] Configurar arquivos Hadoop quanto:
[3.1] ../hadoop-1.2.1/conf/core-site.xml (Definição do diretório do HDFS e máquina que irá rodar o namenode)
hadoop.tmp.dir
/state/partition1/hadoop/hdfs
fs.default.name
hdfs://compute-0-0:8000
[3.2] ../hadoop-1.2.1/conf/hadoop-env.sh (Definição do caminho de instalação do Java (JRE))
export JAVA_HOME=/usr/java/latest
[3.3] ../hadoop-1.2.1/conf/hdfs-site.xml (Definição do número de réplicas do HDFS)
dfs.replication
3
[3.4] ../hadoop-1.2.1/conf/mapred-site.xml (Definição da máquina que irá rodar o namenode)
mapred.job.tracker
compute-0-0:8010
[3.5] ../hadoop-1.2.1/conf/slaves
Popular o número de nós escravos que irão rodar uma instância de datanode e tasktracker.
Na GradeP (201) a lista irá conter o intervalo de nós que vão de compute-0-1 a compute-0-11 (11 nós slaves).
[4] Criar o diretório HDFS e definir permissões de usuário (Na GradeP utiliza-se um usuário chamado erad2015)
tentakel sudo chown -hR erad2015:erad2015 /state/partition1/hadoop/hdfs
tentakel sudo chmod 770 -Rf /state/partition1/hadoop/hdfs
[5] Definir variáveis de ambiente no path do usuário (.bashrc) que indicam a instalação do Hadoop.
export HADOOP_HOME=/hadoop
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$HADOOP_HOME/bin
[6] Criar o diretório Hadoop e definir permissões de usuário (Na GradeP utiliza-se um usuário chamado erad2015)
tentakel sudo chown -hR erad2015:erad2015 /hadoop/
tentakel sudo chmod 770 -Rf hadoop
[7] Copiar a pasta do Hadoop para os nós escravos do cluster (Na GradeP a operação é feita com o comando tentakel)
tentakel cp -Rf /home/erad2015/hadoop-1.2.1/ /hadoop
[8] Formatar inicialmente o namenode (HDFS)
hadoop namenode -format
[9] Iniciar o Hadoop.
start-all.sh
|| -------------------------------------------------------------------------------------------------- ||
|| --- --- ||
|| --- --- ||
|| --- Conjunto de passos para configuração do Hadoop em Cluster (Ex. GradeP) --- ||
|| --- (Microsoft - Azure IaaS erad2015hadoop) --- ||
|| --- --- ||
|| --- --- ||
|| -------------------------------------------------------------------------------------------------- ||
Conjunto de passos Azure (Configuracao):
[1] Criação e configuração básica das VMs Linux (Ubuntu 14.04 LTS)
- Usuário deverá criar manualmente 12 VMs IaaS D1 via portal de azure (https://manage.windowsazure.com)
- Usuário deverá criar 12 discos externos do tipo blob e conectar cada um a uma VM distinta.
- Cada disco deverá ser manualmente formatado e conectado e montado na VM Linux.
[2] Acesso ao nó principal do cluster (Hadoop master (namenode/jobtracker))
ssh erad2015@erad2015hadoop.cloudapp.net
source .bashrc
[3] Instalação manual do Java e do PSSH (Deve ser feito manualmente em cada VM)
apt-get install install pssh -y
pssh apt-get install openjdk-6-jre -y
[4] Geração de chaves SSH entre a máquina mestre (compute-0-0) e as demais máquinas escravas.
ssh-keygen
ssh-copy-id erad2015@compute-0-X:
[5] Copiar o Hadoop (Hadoop 1.X):
wget http://ftp.unicamp.br/pub/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
[6] Descompactar o Hadoop:
tar xvf hadoop-1.2.1.tar.gz
cd hadoop-1.2.1
[7] Configurar arquivos Hadoop quanto:
[7.1] ../hadoop-1.2.1/conf/core-site.xml (Definição do diretório do HDFS e máquina que irá rodar o namenode)
hadoop.tmp.dir
/hadoop/hdfs
fs.default.name
hdfs://compute-0-0:8000
[7.2] ../hadoop-1.2.1/conf/hadoop-env.sh (Definição do caminho de instalação do Java (JRE))
export JAVA_HOME=/usr
[7.3] ../hadoop-1.2.1/conf/hdfs-site.xml (Definição do número de réplicas do HDFS)
dfs.replication
3
[7.4] ../hadoop-1.2.1/conf/mapred-site.xml (Definição da máquina que irá rodar o namenode)
mapred.job.tracker
compute-0-0:8010
[7.5] ../hadoop-1.2.1/conf/slaves
Popular o número de nós escravos que irão rodar uma instância de datanode e tasktracker.
No cluster Azure a lista irá conter o intervalo de nós que vão de compute-0-1 a compute-0-11 (11 nós slaves).
[8] Criar o diretório HDFS e definir permissões de usuário (Na Azure o comando deverá ser feito através do PSSH)
pssh mkdir /hadoop/hdfs
pssh chmod 770 -Rf /hadoop/hdfs
[9] Definir variáveis de ambiente no path do usuário (.bashrc) que indicam a instalação do Hadoop.
export HADOOP_HOME=/hadoop
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$HADOOP_HOME/bin
[10] Criar o diretório Hadoop e definir permissões de usuário (Na Azure o comando deverá ser feito através do PSSH)
pssh chown -hR erad2015:erad2015 /hadoop/
pssh chmod 770 -Rf hadoop
[11] Copiar a pasta do Hadoop para os nós escravos da cloud (Na Azure o comando deverá ser feito através do SCP)
scp -r hadoop-1.2.1 erad2015@compute-0-X:/hadoop
[12] Formatar inicialmente o namenode (HDFS)
hadoop namenode -format
[13] Iniciar o Hadoop.