64位LINUX下hadoop2.2.0重新编译及安装步骤

浏览数：112 / 时间：2015年06月20日

yum -y install lzo-devel zlib-devel gcc autoconf automake libtool gcc-c++ openssl-devel ncurses-devel

ant maven protocolbuf findbugs cmake

1、Protobuf 编译安装

tar -zxvf protobuf-2.5.0.tar.gz

cd protobuf-2.5.0

./configure --prefix=/usr/local/protobuf

make

make install

2、Ant 安装

tar -zxvf apache-ant-1.9.2-bin.tar.gz

mv apache-ant-1.9.2/ /usr/local/ant

3、编译前的准备maven,官方下载地址

wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.1.1/binaries/apache-maven-3.1.1-bin.zip

maven 安装

tar -zxvf apache-maven-3.0.5-bin.tar.gz

mv apache-maven-3.0.5/ /usr/local/maven

4、findbugs 安装

tar -zxfv findbugs-2.0.2.tar.gz

mv findbugs-2.0.2/ /usr/local/findbugs

5、cmake 编译安装

tar -zvxf cmake-2.8.6.tar.gz

cd cmake-2.8.6

./bootstrap

gmake

make

make install

6、下载对应的64位的JDK

#java 安装 /usr/local/jdk1.7.0_45

7、配置环境

vi /etc/profile

#java

export JAVA_HOME=/usr/local/jdk1.7.0_45

export JRE_HOME=/usr/local/jdk1.7.0_45/jre

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

#maven

export MAVEN_HOME=/usr/local/maven

export MAVEN_OPTS="-Xms256m -Xmx512m"

export CLASSPATH=.:$CLASSPATH:$MAVEN_HOME/lib

export PATH=$PATH:$MAVEN_HOME/bin

#protobuf

export PROTOBUF_HOME=/usr/local/protobuf

export CLASSPATH=.:$CLASSPATH:$PROTOBUF_HOME/lib

export PATH=$PATH:$PROTOBUF_HOME/bin

#ant

export ANT_HOME=/usr/local/ant

export CLASSPATH=.:$CLASSPATH:$ANT_HOME/lib

export PATH=$PATH:$ANT_HOME/bin

#findbugs

export FINDBUGS_HOME=/usr/local/findbugs

export CLASSPATH=.:$CLASSPATH:$FINDBUGS_HOME/lib

export PATH=$PATH:$FINDBUGS_HOME/bin

source /etc/profile

8、如果是你32bit的机器，可以直接下载官方已经编译好的包，64bit的机子跑编译好的包跑不了。

由于maven国外服务器可能连不上，先给maven配置一下国内镜像，在maven目录下，conf/settings.xml,在<mirrors></mirros>里添加，原本的不要动

<id>nexus-osc</id>

<name>Nexusosc</name>

<url>http://maven.oschina.net/content/groups/public/</url>

</mirror>

同样，在<profiles></profiles>内新添加

</activation>

<id>nexus</id>

<name>local private nexus</name>

<url>http://maven.oschina.net/content/groups/public/</url>

</releases>

<enabled>false</enabled>

</snapshots>

</repository>

</repositories>

<id>nexus</id>

<name>local private nexus</name>

<url>http://maven.oschina.net/content/groups/public/</url>

</releases>

<enabled>false</enabled>

</snapshots>

</pluginRepository>

</pluginRepositories>

</profile>

9、首先官方下载hadoop源码

wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0-src.tar.gz

编译clean

cd hadoop2.2.0-src

mvn clean install –DskipTests

目前的2.2.0 的Source Code 压缩包解压出来的code有个bug 需要patch后才能编译。否则编译hadoop-auth 会提示错误：

vi /hadoop-2.2.0/hadoop-common-project/hadoop-auth/pom.xml

<groupid>org.mortbay.jetty</groupid>

<artifactid>jetty</artifactid>

</dependency>

在上面代码后添加下面代码

<groupid>org.mortbay.jetty</groupid>

<artifactid>jetty-util</artifactid>

</dependency>

注：不更改可能报下面错位

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:2.5.1:testCompile (default-testCompile) on project hadoop-auth: Compilation failure: Compilation failure: ----------------------------------------------------------------------------------------------

ok,现在可以进行编译了

mvn clean package -Pdist,native -DskipTests -Dtar

慢慢等吧！

[INFO] ------------------------------------------------------------

[INFO] Total time: 11:53.144s

[INFO] Finished at: Fri Nov 22 16:58:32 CST 2013

[INFO] Final Memory: 70M/239M

[INFO] ------------------------------------------------------------------------

直到看到上面的内容那就说明编译完成了。

编译后的路径在:hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0

[root@localhost bin]# ./hadoop version

Hadoop 2.2.0

Subversion Unknown -r Unknown

Compiled by root on 2013-11-22T08:47Z

Compiled with protoc 2.5.0

From source with checksum 79e53ce7994d1628b240f09af91e1af4

This command was run using /data/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar

可以看出hadoop的版本

[root@localhost hadoop-2.2.0]# file lib//native/*

lib//native/libhadoop.a: current ar archive

lib//native/libhadooppipes.a: current ar archive

lib//native/libhadoop.so: symbolic link to `libhadoop.so.1.0.0‘

lib//native/libhadoop.so.1.0.0: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, not stripped

lib//native/libhadooputils.a: current ar archive

lib//native/libhdfs.a: current ar archive

lib//native/libhdfs.so: symbolic link to `libhdfs.so.0.0.0‘

lib//native/libhdfs.so.0.0.0: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, not stripped

注意，如果下载官网的编译好的包，这里显示的是32-bit。

hadoop编译成功，下面可以来部署集群。

10、部署集群准备

两台以上机器，修改hostname, ssh免登陆，关闭防火墙等

10.1、创建新用户

useradd hadoop

su hadoop

注意以下操作有些需要root权限

10.2、修改主机名

vi /etc/sysconfig/network

hostname master

注销一下系统,修改生效

10.3、修改hosts

vi /etc/hosts

新增你的主机IP和HOSTNAME

192.168.10.10 master

192.168.10.11 slave1

10.4、ssh免登陆

修改/etc/ssh/sshd_config

RSAAuthentication yes

PubkeyAuthentication yes

AuthorizedKeysFile .ssh/authorized_keys

然后service sshd restart

现在开始配置无密登录

[hadoop@master ~]$ cd /home/hadoop/

[hadoop@master ~]$ ssh-keygen -t rsa -P -f ~/.ssh/id_rsa

[hadoop@master ~]$ cd .ssh/

[hadoop@master .ssh]$ cp id_rsa.pub authorized_keys

[hadoop@master .ssh]$ chmod 600 authorized_keys

[hadoop@master .ssh]$ scp authorized_keys [email protected]:/home/hadoop/.ssh/

[hadoop@master .ssh]$ ssh slave1

看到已经变成slave1了，说明成功

11、开始集群配置工作

配置之前在要目录下创建三个目录，用来放hadooop文件和日志数据

[hadoop@master ~]$mkdir -p dfs/name

[hadoop@master ~]$mkdir -p dfs/data

[hadoop@master ~]$mkdir -p temp

把之前编译成功的版本移到hadoop目录下，注意目录权限问题

下面就开始配置文件

11.1、hadoop-env.sh

找到JAVA_HOME，把路径改为实际地址

11.2、yarn-env.sh

同6.1

11.3、slave

配置所有slave节点

11.4、core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value> //系统分布式URL

</property>

<name>io.file.buffer.size</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/temp</value>

</property>

<name>hadoop.proxyuser.hadoop.hosts</name>

</property>

<name>hadoop.proxyuser.hadoop.groups</name>

</property>

注意fs.defaultFS为2.2.0新的变量，代替旧的：fs.default.name

11.5、hdfs-site.xml

配置namenode、datanode的本地目录信息

<name>dfs.namenode.secondary.http-address</name>

<value>master:9001</value>

</property>

<name>dfs.namenode.name.dir</name>

<value>/home/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/home/hadoop/dfs/data,/mnt/d1,/mnt/d2,/mnt/d3</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

新的：dfs.namenode.name.dir，旧：dfs.name.dir

新的：dfs.datanode.name.dir，旧：dfs.data.dir

dfs.replication确定 data block的副本数目，hadoop基于rackawareness(机架感知)默认复制3份分block,（同一个rack下两个，另一个rack下一份，按照最短距离确定具体所需block, 一般很少采用跨机架数据块，除非某个机架down了）

11.6、mapred-site.xml

配置其使用 Yarn 框架执行 map-reduce 处理程序

这个地方需要把mapred-site.xml.template复制重新命名

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master:19888</value>

</property>

新的计算框架取消了实体上的jobtracker, 故不需要再指定mapreduce.jobtracker.addres，而是要指定一种框架，这里选择yarn，hadoop2.2.还支持第三方的计算框架。

11.7、yarn-site.xml

配置ResourceManager,NodeManager的通信端口，WEB监控端口等

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

到这里基本配置好了，把所有复制到其他的slave节点。

12、启动hadoop

这里你可以进行环境变量设置

12.1、格式化namenode

[hadoop@master hadoop]$ cd /home/hadoop/hadoop-2.2.0/bin/

[hadoop@master bin]$ ./hdfs namenode -format

12.2、启动hdfs

[hadoop@master bin]$ cd ../sbin/

[hadoop@master sbin]$ ./start-dfs.sh

这时候在master中输入jps应该看到namenode和secondarynamenode服务启动，slave中看到datanode服务启动

12.3、启动yarn

[hadoop@master sbin]$ ./start-yarn.sh

master中应该有ResourceManager服务，slave中应该有nodemanager服务

查看集群状态： ./bin/hdfs dfsadmin –report

查看文件块组成： ./bin/hdfsfsck / -files -blocks

查看各节点状态: http://192.168.10.10:50070

查看resourcemanager上cluster运行状态: http:// 192.168.10.11:8088

13、安装中要注意的事项

13.1、注意版本，机器是32bit还是64位

13.2、注意依赖包的安装

13.3、写配置文件注意”空格“，特别是从别的地方copy的时候

13.4、关闭所有节点的防火墙

如果有看到类似"no route to host"这样的异常，基本就是防火墙没关

（1）重启后永久性生效：

开启：chkconfig iptables on

关闭：chkconfig iptables off

（2）即时生效，重启后失效：

开启：service iptables start

关闭：service iptables stop

13.5、开启datanode后自动关闭

基本是因为namenode和datanode的clusterID不一致

13.6 no datanode to stop

删除/tmp目录下的

hadoop-daemon.sh代码，脚本是通过pid文件来停止hadoop服务的，而集群配置是使用的默认配置，pid文件位于/tmp目录下，对比/tmp目录下hadoop.pid文件中的进程id和(ps -ax)查出来的进程id，发现两个进程id不一致，终于找到了问题的根源。赶紧去更新hadoop的配置吧！修改hadoop-env.sh中的：HADOOP_PID_DIR = hadoop安装路径

14、运行测试例子

[hadoop@master bin]$ ./yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar randomwriter /home/hadoop/dfs/input/

这里要注意不要用 -jar,不然会报异常“Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/util/ProgramDriver”

[hadoop@master bin]$ ./yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /home/hadoop/dfs/input/ /home/hadoop/dfs/output/

在input下面新建两个文件

$mkdir /dfs/input

$echo ‘hello,world’ >> input/file1.in

$echo ‘hello,ruby’ >> input/file2.in

./bin/hadoop fs -mkdir -p /home/hadoop/dfs/input

./bin/hadoop fs –put /home/hadoop/dfs/input /home/hadoop/test/test_wordcount/in

查看word count的计算结果

$bin/hadoop fs -cat /home/hadoop/test/test_wordcount/out/*

hadoop 1

hello 1

ruby

本文出自 “DavideyLee” 博客，请务必保留此出处http://davideylee.blog.51cto.com/8703117/1382785