网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

Node.js 爬虫，自动化抓取文章标题和正文

浏览数：48 / 时间：2015年06月09日

持续进行中。。。

目标：

动态User-Agent模拟浏览器 √
支持Proxy设置，避免被服务器端拒绝 √
支持多核模式，发挥多核CPU性能 √
支持核内并发模式 √
自动解码非英文站点，避免乱码出现 √
自动队列管理，持续化PUSH √
自动抓取文章标题和正文 √
性能优化
测试用例，自动化测试

我的测试环境：

9 台安装 ElasticSearch 1.3.2 的 centos，48G内存，8核
3 台 Node.js v0.11.14 的 centos，16G内存，8核，用作爬虫
3 台 NSQD 服务器，用作爬虫解耦后的数据订阅和发送，与爬虫共用，其中 1 台部署 NSQ Lookupd
国内主要门户的站点管理，使用Kue，链接，正文之间的传递采用NSQ

结果：

日均数据 50W 左右

开源地址：https://github.com/Tjatse/spider2

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

Node.js 爬虫，自动化抓取文章标题和正文

标签： style 使用 com 数据 http it 服务器 js la style 使用 com 数据 http it 服务器 js la

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

阿富汗发生山体滑坡或造成2700人死亡

阿富汗发生山体滑坡或造成2700人死亡

美国19周的早产儿

美国19周的早产儿

住在寺庙里的高州孤儿谢树华

住在寺庙里的高州孤儿谢树华

Cara Delevingne 选集

Cara Delevingne 选集

专业摄影师视野是与生俱来的

专业摄影师视野是与生俱来的

女子占座被指责飞踹老人

女子占座被指责飞踹老人

2014年Chinajoy精选

2014年Chinajoy精选

本拉登谋划911恐怖袭击前"老巢"曝光

本拉登谋划911恐怖袭击前"老巢"曝光

国外甜美金发MM

国外甜美金发MM

沈鹏书法欣赏

沈鹏书法欣赏

您可能还喜欢

更多

英国男子走遍非洲拍摄土著面孔

英国男子走遍非洲拍摄土著面孔

美国小姐著比基尼参加水上排球大赛

美国小姐著比基尼参加水上排球大赛

金曲奖红毯众星云集张学友陈奕迅角逐歌王

金曲奖红毯众星云集张学友陈奕迅角逐歌王

冯小刚24岁女儿近照曝光叼烟表情逗趣

冯小刚24岁女儿近照曝光叼烟表情逗趣

长春刘老根大舞台不雅泥塑被拆

长春刘老根大舞台不雅泥塑被拆

印尼原始部落生活大揭秘

印尼原始部落生活大揭秘

惠州海滩试拍

惠州海滩试拍

鲁迅先生书法手稿真迹

鲁迅先生书法手稿真迹

NBA 新晋第一女神走红

NBA 新晋第一女神走红

乌克兰美女领导克里米亚辛菲罗波尔

乌克兰美女领导克里米亚辛菲罗波尔