网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

用MySQL全文索引给FeedDB打造一个搜索引擎

浏览数：26 / 时间：2015年06月08日

效果图，欢迎测试 http://feed.readself.com/

samhjn 同学在上一篇文章评论中表示 Feed Database 的搜索功能不好使。原因是之前我没有太注重搜索上的优化，所以这个功能的体验很差。例如输入 “xiaoxia” 结果搜出一大堆 “xiaoxiao” 的网站，排名还比我的博客靠前，挺失望的！不过，今天的工作就是把这个功能给完善了！现在已经不是之前那个单纯在MySQL里使用like '%keyword%'查找那么简陋了。而且搜索速度也大大提升，不再像之前那样慢。

只要你输入关键字“xiaoxia”进行搜索，绝对不会出现“xiaoxiao”的结果了，因为这是两个不同的名字。

同时，你输入的关键词还会被拆分，例如“吸血鬼小说”会被拆分成“吸血鬼”和“小说”。排序方式为先按匹配词数，再按BR值（被友情链接数量）排序。

提到搜索引擎技术就离不开分词和索引，在分词上，我使用的是 mmseg 的中文分算法和搜狗的词库，分词速度快的惊人。以至于我处理数据的瓶颈在MySQL数据库上。我使用了MySQL的fulltext索引功能，在检索效率上可能没有sphinx那么快，但是对于10万个条目以内的数据库，速度已经足够了。为了达到精确查找的目的，我只对网站链接和标题两个属性进行了索引，fulltext的索引数据占用的空间也不多，才不到10M，挺环保的。

对网站标题进行分词之后，连同需要建立索引的链接，一起搬到了一个叫feed_index的索引表中。

下面是未分词的一段数据：

分词之后的数据：

目前这个分词效果还是挺满意的。另外，在最近看的一本搜索引擎相关的书籍中，提到了一种不依赖于词库的分词方法，能够应付一些新生的词汇，有空研究一下。如果两种方法都结合起来，应该能够达到更好的效果

夜已深，明天继续研究！

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

用MySQL全文索引给FeedDB打造一个搜索引擎

标签： mysql

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

栩栩如生的街头三维立体画--绝对逼真

栩栩如生的街头三维立体画--绝对逼真

模特精选

模特精选

实拍明代干尸开棺全过程(图)

实拍明代干尸开棺全过程(图)

海滩试拍

海滩试拍

周杰伦的新婚妻子昆凌

周杰伦的新婚妻子昆凌

女子占座被指责飞踹老人

女子占座被指责飞踹老人

东莞孝子举刀弑母后的90个日与夜

东莞孝子举刀弑母后的90个日与夜

AI 生成的美女图

AI 生成的美女图

佛山14岁学生坠楼亡打赌跳对面宿舍失足

佛山14岁学生坠楼亡打赌跳对面宿舍失足

乌鲁木齐一早市发生爆炸

乌鲁木齐一早市发生爆炸

您可能还喜欢

更多

印尼原始部落生活大揭秘

印尼原始部落生活大揭秘

Chinajoy 部分精选

Chinajoy 部分精选

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

奥马巴儿时旧照

奥马巴儿时旧照

乌克兰美女领导克里米亚辛菲罗波尔

乌克兰美女领导克里米亚辛菲罗波尔

特斯拉 MODEL S 图集

特斯拉 MODEL S 图集

中山路人徒手接住空中坠落小孩

中山路人徒手接住空中坠落小孩

陶喆小16岁未婚妻首曝光外型亮丽系富家千金

陶喆小16岁未婚妻首曝光外型亮丽系富家千金

泰国地下女子裸体泰拳比赛照曝光

泰国地下女子裸体泰拳比赛照曝光

乌克兰芭比娃美女

乌克兰芭比娃美女