python 爬虫知乎

浏览数：81 / 时间：2015年06月08日

人生苦短，唯有python

是不是代码写多了自己就熟练了呢？

人人网爬虫模板，具体操作以后有机会再添加吧！

#coding: utf-8
import urllib2
import urllib
import cookielib
import re
def ZhihuBrower(url,user,password):
    #登陆页面，可以通过抓包工具分析获得，如fiddler，wireshark
    login_page = "http://www.zhihu.com/login"
    try:
        #获得一个cookieJar实例
        cj = cookielib.CookieJar()
        #cookieJar作为参数，获得一个opener的实例
        opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
        #伪装成一个正常的浏览器，避免有些web服务器拒绝访问。
        opener.addheaders = [('User-agent','Mozilla/5.0 (Windows NT 6.3; WOW64; rv:36.0) Gecko/20100101 Firefox/36.0')]
        #伪装成内部访问
        opener.addheaders = [('Refer','http://www.zhihu.com/')]
        #生成Post数据，含有登陆用户名密码。
        data = urllib.urlencode({"email":user, "password":password})
        #以post的方法访问登陆页面，访问之后cookieJar会自定保存cookie
        opener.open(login_page,data)
        #以带cookie的方式访问页面
        op=opener.open(url)
        #读取页面源码
        data= op.read()
        return data
    
#异常处理
    except Exception,e:
        print str(e)
#访问某用户的个人主页，其实这已经实现了人人网的签到功能。
html = ZhihuBrower("http://www.zhihu.com/",'[email protected]','********')
print html
print '-----end--------'

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

python 爬虫知乎