网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

最近做了一个自动纠错演示网页

浏览数：98 / 时间：2015年06月09日

最近做了一个自动纠错演示网页：nfabo.cn

当 Query 中有一些错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

搜索引擎把这些字还原成拼音，用一个拼音相同的已知 Query 代替。

但是，当输错的汉字是多音字，特别是有多个这样的错误输入时，所有的搜索引擎基本上都不管，或者仅使用一个最常用的音去纠错。因为要考虑所有可能的拼音组合，在极端情况下会导致指数爆炸！

我的算法解决了这个指数爆炸问题

这个演示页面目前只收录了 800万 条短语+词频，数据也不太干净
该算法全部在内存中运行，使用了 360M 内存，这个数据量，如果用传统方法暴力实现，并且达到这个性能，需要 数以 TB 的内存
这个服务器是一个租用的虚拟云主机，单核，比我2009年的笔记本电脑还要慢 3 倍

基于编辑距离的纠错

在已知的搜索词中寻找编辑距离与用户 Query 最小的词，使用我的算法也可以高效解决（还没做演示页面）

最近做了一个自动纠错演示网页,古老的榕树,5-wow.com

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

最近做了一个自动纠错演示网页

标签：算法 style 问题使用数据服务器方法搜索算法 style 问题使用数据服务器方法搜索

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

实拍厌食症患者的身体干瘪枯瘦

实拍厌食症患者的身体干瘪枯瘦

海岛度假

海岛度假

北京车展美女礼仪一览

北京车展美女礼仪一览

广州一男子当街拿刀杀死妻子暧昧对象

广州一男子当街拿刀杀死妻子暧昧对象

栩栩如生的街头三维立体画--绝对逼真

栩栩如生的街头三维立体画--绝对逼真

NBA 新晋第一女神走红

NBA 新晋第一女神走红

传说中的汗血宝马

传说中的汗血宝马

住在寺庙里的高州孤儿谢树华

住在寺庙里的高州孤儿谢树华

杨紫琼在奥斯卡的高光时刻

杨紫琼在奥斯卡的高光时刻

悉尼海滩百人裸泳狂欢一丝不挂惊爆眼球

悉尼海滩百人裸泳狂欢一丝不挂惊爆眼球

您可能还喜欢

更多

中国超模

中国超模

小众海滩试拍

小众海滩试拍

7080后儿时集体回忆插画

7080后儿时集体回忆插画

刘雯秀场新造型太震撼，两条带子做衣服太时髦，肩部“凹凸不平”

刘雯秀场新造型太震撼，两条带子做衣服太时髦，肩部“凹凸不平”

职业模特拍摄省事很多

职业模特拍摄省事很多

安倍在寿司店请奥巴马喝酒

安倍在寿司店请奥巴马喝酒

2014全国职院模特大赛众佳丽秀完美身材

2014全国职院模特大赛众佳丽秀完美身材

大海陪衬白色衣裙

大海陪衬白色衣裙

近代康生的书法

近代康生的书法

印度诞生罕见双头女婴 “第二头颅”长在肚子上

印度诞生罕见双头女婴 “第二头颅”长在肚子上