在ubuntu上创建scrapy爬虫
下载scrapy
新建项目
start/
scrapy.cfg
start/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
各文件的作用如下:
- scrapy.cfg: 项目配置文件
- items.py: 项目items文件
- pipelines.py: 项目管道文件
- settings.py: 项目配置文件
- spiders: 放置spider的目录
开始简单爬虫
from scrapy.spider import BaseSpider class QiushiSpider(BaseSpider): name = "qiushi" allowed_domains = ["qiushibaike.com","www.qiushibaike.com"] start_urls = ["http://www.qiushibaike.com/"] def parse(self,response): filename = response.url.split("/")[-2] open(filename,'wb').write(response.body)返回项目主目录,执行scrapy crawl qiushi
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。