1. Python常用爬虫库
- urllib urllib2
- Beautiful Soup http://www.crummy.com/software/BeautifulSoup/
- lxml http://lxml.de
- HTQL http://htql.net/
- Scrapy http://scrapy.org/
- Mechanize http://wwwsearch.sourceforge.net/mechanize/
- PyQuery http://pythonhosted.org/pyquery/index.html
- requests http://docs.python-requests.org/en/latest/
- creepy
某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可是设定那些url需要抓。
地址:https://pypi.python.org/pypi/creepy - selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。
官方网站:http://www.seleniumhq.org/
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。