|| -------------------------------------------------------------------------------------------------- || || --- --- || || --- --- || || --- Conjunto de passos para configuração do Hadoop em Cluster (Ex. GradeP) --- || || --- (GPPD - GradeP 201) --- || || --- --- || || --- --- || || -------------------------------------------------------------------------------------------------- || [1] Acesso ao nó principal do cluster: ssh user@gradep.inf.ufrgs.br [1.1] Acesso ao nó Hadoop master (namenode/jobtracker) ssh compute-0-0 [2] Copiar o Hadoop (Hadoop 1.X): wget http://ftp.unicamp.br/pub/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz [2.1] Descompactar o Hadoop: tar xvf hadoop-1.2.1.tar.gz cd hadoop-1.2.1 [3] Configurar arquivos Hadoop quanto: [3.1] ../hadoop-1.2.1/conf/core-site.xml (Definição do diretório do HDFS e máquina que irá rodar o namenode) hadoop.tmp.dir /state/partition1/hadoop/hdfs fs.default.name hdfs://compute-0-0:8000 [3.2] ../hadoop-1.2.1/conf/hadoop-env.sh (Definição do caminho de instalação do Java (JRE)) export JAVA_HOME=/usr/java/latest [3.3] ../hadoop-1.2.1/conf/hdfs-site.xml (Definição do número de réplicas do HDFS) dfs.replication 3 [3.4] ../hadoop-1.2.1/conf/mapred-site.xml (Definição da máquina que irá rodar o namenode) mapred.job.tracker compute-0-0:8010 [3.5] ../hadoop-1.2.1/conf/slaves Popular o número de nós escravos que irão rodar uma instância de datanode e tasktracker. Na GradeP (201) a lista irá conter o intervalo de nós que vão de compute-0-1 a compute-0-11 (11 nós slaves). [4] Criar o diretório HDFS e definir permissões de usuário (Na GradeP utiliza-se um usuário chamado erad2015) tentakel sudo chown -hR erad2015:erad2015 /state/partition1/hadoop/hdfs tentakel sudo chmod 770 -Rf /state/partition1/hadoop/hdfs [5] Definir variáveis de ambiente no path do usuário (.bashrc) que indicam a instalação do Hadoop. export HADOOP_HOME=/hadoop export JAVA_HOME=/usr/java/latest export PATH=$PATH:$HADOOP_HOME/bin [6] Criar o diretório Hadoop e definir permissões de usuário (Na GradeP utiliza-se um usuário chamado erad2015) tentakel sudo chown -hR erad2015:erad2015 /hadoop/ tentakel sudo chmod 770 -Rf hadoop [7] Copiar a pasta do Hadoop para os nós escravos do cluster (Na GradeP a operação é feita com o comando tentakel) tentakel cp -Rf /home/erad2015/hadoop-1.2.1/ /hadoop [8] Formatar inicialmente o namenode (HDFS) hadoop namenode -format [9] Iniciar o Hadoop. start-all.sh || -------------------------------------------------------------------------------------------------- || || --- --- || || --- --- || || --- Conjunto de passos para configuração do Hadoop em Cluster (Ex. GradeP) --- || || --- (Microsoft - Azure IaaS erad2015hadoop) --- || || --- --- || || --- --- || || -------------------------------------------------------------------------------------------------- || Conjunto de passos Azure (Configuracao): [1] Criação e configuração básica das VMs Linux (Ubuntu 14.04 LTS) - Usuário deverá criar manualmente 12 VMs IaaS D1 via portal de azure (https://manage.windowsazure.com) - Usuário deverá criar 12 discos externos do tipo blob e conectar cada um a uma VM distinta. - Cada disco deverá ser manualmente formatado e conectado e montado na VM Linux. [2] Acesso ao nó principal do cluster (Hadoop master (namenode/jobtracker)) ssh erad2015@erad2015hadoop.cloudapp.net source .bashrc [3] Instalação manual do Java e do PSSH (Deve ser feito manualmente em cada VM) apt-get install install pssh -y pssh apt-get install openjdk-6-jre -y [4] Geração de chaves SSH entre a máquina mestre (compute-0-0) e as demais máquinas escravas. ssh-keygen ssh-copy-id erad2015@compute-0-X: [5] Copiar o Hadoop (Hadoop 1.X): wget http://ftp.unicamp.br/pub/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz [6] Descompactar o Hadoop: tar xvf hadoop-1.2.1.tar.gz cd hadoop-1.2.1 [7] Configurar arquivos Hadoop quanto: [7.1] ../hadoop-1.2.1/conf/core-site.xml (Definição do diretório do HDFS e máquina que irá rodar o namenode) hadoop.tmp.dir /hadoop/hdfs fs.default.name hdfs://compute-0-0:8000 [7.2] ../hadoop-1.2.1/conf/hadoop-env.sh (Definição do caminho de instalação do Java (JRE)) export JAVA_HOME=/usr [7.3] ../hadoop-1.2.1/conf/hdfs-site.xml (Definição do número de réplicas do HDFS) dfs.replication 3 [7.4] ../hadoop-1.2.1/conf/mapred-site.xml (Definição da máquina que irá rodar o namenode) mapred.job.tracker compute-0-0:8010 [7.5] ../hadoop-1.2.1/conf/slaves Popular o número de nós escravos que irão rodar uma instância de datanode e tasktracker. No cluster Azure a lista irá conter o intervalo de nós que vão de compute-0-1 a compute-0-11 (11 nós slaves). [8] Criar o diretório HDFS e definir permissões de usuário (Na Azure o comando deverá ser feito através do PSSH) pssh mkdir /hadoop/hdfs pssh chmod 770 -Rf /hadoop/hdfs [9] Definir variáveis de ambiente no path do usuário (.bashrc) que indicam a instalação do Hadoop. export HADOOP_HOME=/hadoop export JAVA_HOME=/usr/java/latest export PATH=$PATH:$HADOOP_HOME/bin [10] Criar o diretório Hadoop e definir permissões de usuário (Na Azure o comando deverá ser feito através do PSSH) pssh chown -hR erad2015:erad2015 /hadoop/ pssh chmod 770 -Rf hadoop [11] Copiar a pasta do Hadoop para os nós escravos da cloud (Na Azure o comando deverá ser feito através do SCP) scp -r hadoop-1.2.1 erad2015@compute-0-X:/hadoop [12] Formatar inicialmente o namenode (HDFS) hadoop namenode -format [13] Iniciar o Hadoop.