Lucene中的域选项
Field类是lucene在索引过程中的一个很重要的类,该类控制着域值被索引的方式
域选项主要包括以下几种选项:域索引选项、域存储选项、域的项向量选项、域的排序选项等
域索引选项:通过倒排索引来控制域值是否能够被搜索
Index.ANALYZED,将文本域分析成为一个或多个独立的语汇单元,每个语汇单元都能够被搜索
Index.NOT_ANALYZED,对文本域进行索引但是不进行分词(适用于对人名,URL,电话号码等需要进行精确匹配的搜索)
Index.ANALYZED_NO_NORMS 和Index.ANALYZED相似,但是不存储索引时的加权信息(相对来说节省内存)
Index.NOT_ANALYZED_NO_NORMS 和Index.NOT_ANALYZED相似但是不存储索引时的加权信息
Index.NO 使对应的域不能够被搜索
域存储选项:确定是否存储域的真实值,以便在搜索的时候进行恢复
Stroe.YES 指定存储域值(web页面的URL,数据库的ID,文章标题等可以进行存储)
Store.NO 不存储域值
项向量选项:可以实现类似查找同义词的这种功能(后边文章详细介绍)
域排序选项:
为了实现域排序的功能必须对文档进行索引(不能使用Index.NO),并且每个对应的文档必须包含一个语汇单元,也就不能对该域进行分词操作(例外情况是可以使用只会生成一个语汇单元的分析器,比如KeyWordAnalyzer)
多值域:
想象这样一种情况,一个文档用域来表示作者,但是一本书的作者可能不止一个,这时,我们可以在该域里写入多个不同的值,使其成为一个多值域
类似以下代码
Document document = new Document; for(String author : authors){ document.add( new Field ("author",author,Field.Store.YES,Field.Index.ANALYZED)); }
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。