直接上问题:这两天为了试验,安装了两套集群:
(1)32位hadoop1集群(5个节点);
(2)64位hadoop2集群(6个节点)
两个集群中都遇到过这样的问题:在namenode正常启动hadoop集群后,查看datanode是正常的显示存在进程,但是在web界面中查看的时候,发现数据节点全部属于宕机,或者就是干脆直接没有datanode.还有种情况,datanode启动后,jps查看是在的,但是一会再去查看,发现挂掉了.还有就是,存储空间显示占用100%
其实这两个集群问题是一样的,都是由于我自己在格式化namenode之后,没有去删除主从节点上面的用于保存数据的文件夹(即dfs.name.dir配置的路径下的文件),导致内部namenode存在的关于文件系统的元信息和数据节点对应不上造成的.
解决方法:
删除掉各个节点上面的tmp(可能与我设置的路径和文件不同,对应你自己在hdfs-site.xml中设置的dfs.name.dir路径就好了),然后格式化集群,最后重启集群,问题搞定了.