网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

NodeJS抓取Web页面的编码问题

浏览数：26 / 时间：2015年06月09日

　　最近在做毕设需要用到的爬虫系统，页面抓取这一块使用的是NodeJS语言，在最开始写的页面抓取的程序中，针对gb2312编码的页面保存完后显示的是乱码，开始认为在用Java读取文件时进行一个编码转换工作就可以解决了，但是试了半天，编码只会越来越慢，后来猜想，NodeJS请求到的页面的Body传输过来的是二进制的流信息，如果采用错误的编码方式对二进制信息进行解码，那么得到的结果坑定是错误的，再将这种结果保存到文件中，结果肯定还是错的，所以，通过上述的方法，不可能得到正确的结果。

　　后来的解决方法是，在NodeJS中，对二进制数据进行解码，通过正则表达式获取文件正确的编码，再用正确的编码对二进制数据进行解码，最终得到正确的结果。

　　在请求页面信息时，有些网站由于页面内容过多，对页面中的内容进行了压缩，可以通过Headers[‘content-code‘]查看页面压缩所使用的压缩方法，针对这种页面，在解析前，必须先对流信息进行解压缩，得到完整的流信息后，再采用上述的方法对信息进行解码操作。

　　NodeJS中关于编码操作，使用的是iconv-lite库，压缩与解压缩采用的是zlib库。

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

NodeJS抓取Web页面的编码问题

标签：使用 java 文件问题数据 it 方法 js ad 使用 java 文件问题数据 it 方法 js ad

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

黄海波事件的女主角

黄海波事件的女主角

佛山14岁学生坠楼亡打赌跳对面宿舍失足

佛山14岁学生坠楼亡打赌跳对面宿舍失足

刘亦菲神仙姐姐十年颜值一直在线

刘亦菲神仙姐姐十年颜值一直在线

专业摄影师视野是与生俱来的

专业摄影师视野是与生俱来的

赵忠祥5亿豪宅再次曝光

赵忠祥5亿豪宅再次曝光

鲁迅先生书法手稿真迹

鲁迅先生书法手稿真迹

鲁迅书法绵里裹铁

鲁迅书法绵里裹铁

2015北影表演专业考试首日校内颜值爆表

2015北影表演专业考试首日校内颜值爆表

欧美比基尼精选

欧美比基尼精选

沈尹默书法

沈尹默书法

您可能还喜欢

更多

惠州华润小径湾试拍

惠州华润小径湾试拍

海岛度假

海岛度假

狠心母亲将两孩子扔进车流碾死

狠心母亲将两孩子扔进车流碾死

绝对罕见!目睹各国名人遗容照

绝对罕见!目睹各国名人遗容照

普京政敌、俄罗斯前副总理遭枪杀

普京政敌、俄罗斯前副总理遭枪杀

本拉登谋划911恐怖袭击前"老巢"曝光

本拉登谋划911恐怖袭击前"老巢"曝光

陶喆小16岁未婚妻首曝光外型亮丽系富家千金

陶喆小16岁未婚妻首曝光外型亮丽系富家千金

美国成人展

美国成人展

米兰时装周火辣上演美模抱萌娃走秀场面温馨

米兰时装周火辣上演美模抱萌娃走秀场面温馨

伊拉克40年来首次选美：第一张就被惊艳了

伊拉克40年来首次选美：第一张就被惊艳了