Python web server: python-segment 使用示例
1.如何获得源码
你可以使用以下代码,直接从版本库中复制一个可用版本出来。
hg clone https://shell909090@code.google.com/p/python-segment/
或者可以从这里下载一个最新版本的包。
2.如何准备环境
你可以看INSTALL,里面讲解的比较详细了。如果你不准备进行安装部署,可以跳过安装和打包这两步。但是如果你打算使用cutter工具,请安装chardet。如果你打算使用spider工具,请安装html2text。
首先按照如下方式生成词典。
gunzip dict.tar.gz./ps_dbmgr create dict.txt
然后,你可以看到生成了frq.db,这是词典的默认文件名。注意,词典文件的格式和具体的版本有关,换用版本后最好重新生成词典。
3.试验分词
假定有一个文本文件,test.txt,里面内容是中文平文本,编码任意。
./ps_cutter cutshow test.txt
cutter会自动推测编码。
4.代码使用
假如当前有一个frq.db词库。
import segmentcut = segment.get_cutter('frq.db')
print list(cut.parse(u'工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'))
注意,仅仅使用parse是不会进行分词的,因为parse返回的是一个生成器。
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。