Nutch中Web图基本类型和存储结构

Node表示Web图中节点,基本信息包括:入链数、出链数、入链分数和元数据。出链分数通过入链分数除以出链数得到

LinkDatum表示Web图中链接,基本信息包括:链接、锚文本、分数、时间戳和链接类型(出链或入链)。

LinkNode表示链接节点,包括链接和Node两部分。

LoopSet表示链接构成的环,包含环中的链接集合。

Web图由抓取的段(主要是parse-data,可选包括crawl-fetch)生成,包括三部分:出链数据库、入链数据库和节点库。

Web图所在目录为w,则:

出链数据库所在目录为w/outlinks/current

老出链数据库所在目录为w/outlinks/old

入链数据库所在目录为w/inlinks

节点库所在目录为w/nodes

环数据库所在目录为w/loops

路径所在目录为w/routes

链接转储数据库所在目录为w/linkdump

出链数据库为MapFile,键为链接字符串(源链接),值为LinkDatum(类型为出链,其中的链接为目标链接)。

入链数据库为MapFile,键为链接字符串(目标链接),值为LinkDatum(类型为入链,其中的链接诶为源链接)。

节点数据库为MapFile,键为节点链接字符串,值为Node

环数据库为MapFile,键为链接Text,值为LoopSet。表示每个链接的环信息。

链接转储数据库为MapFile,键为链接Text,值为LinkNodes,表示每个链接的入链信息。

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。