Ubuntu环境下nutch集成HBase
nutch集成HBase
(详见:http://duguyiren3476.iteye.com/blog/2085973 )
1. 修改nutch的hbase配置
//将自己的hbase配置copy到nutch配置中 cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/
2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)
原因:(我使用的hbase时0.94.25)
nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90
如果使用默认的hbase0.90操作自己安装的hbase0.94,报错:
java.lang.IllegalArgumentException: Not a host:port pair
如果直接使用hbase0.94操作自己安装的hbase0.94,报错:
java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V
解决办法:
使用0.92.2hbase的jar文件
3. 抓取
(1)设置抓取地址
cd runtime/local/ mkdir -p urls sudo gedit urls/seed.txt
在seed中填入你要抓取的地址:比如:http://www.apache.org/
(2)将urls放到hdfs系统中
hadoop fs -copyFromLocal urls /home/hadoop/urls
(3)运行nutch,并把结果放到hbase
nutch inject /home/hadoop/urls
(4)查看hbase
hbase shell //进入shell后 list
如果出现 “webpage” 则成功。
(5)
nutch generate -topN 3 nutch fetch -all nutch parse -all nutch updatedb
(6)进入hbase查询
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。