#爬虫必备,解析html文档----beautifulsoup的简单用法


#出处:http://mp.weixin.qq.com/s?__biz=MjM5NzU0MzU0Nw==&mid=201820961&idx=2&sn=b729466f334d64b2c36e05e65235fdd1#rd
#获取html文档
# import urllib,urllib2
# url=urllib.urlopen(‘http://www.qq.com‘)
# #读取
# url0=url.read()
# #或者
# url1=url.read().decode(‘utf-8‘)
# print url1
#如果不指定decode方式则以系统预设方式decod
#bs4处理
from bs4 import BeautifulStoneSoup as soup
soup1=soup(‘http://www.qq.com‘)
#以css样式存取node
htmldate=soup1.findAll(‘p‘,{‘class‘:‘right‘})
#寻找所有<p class="right"></p>的node并return一个list給htmldata变量
#以属性方式存取node
htmltitle=soup1.findAll(id=‘title‘)
#寻找所有<XX id = "title"></XX>的node(XX为任意名称)
#取得node里面内容
#想取得像href这类超链接时可用(以下为soup指到<a>node情況下)
url=‘http://www.qq.com‘
url=soup1[‘href‘]
#取得内容
#如果是<node>string</node>的情況下可以使用
context=soup1.string
#如果要取得所有內容的话,可使用
all=soup1.contents
#中文文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。