网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

HTML解析HtmlAgilityPack

浏览数：19 / 时间：2015年06月09日

原文:HTML解析HtmlAgilityPack

//解析页面源代码

Uri surl = new Uri(url);

Uri uriCategory = null;

HttpWebRequest requst = (HttpWebRequest)WebRequest.Create(url);

WebResponse response = requst.GetResponse();

Stream stream = response.GetResponseStream();

StreamReader read = new StreamReader(stream, Encoding.GetEncoding("gb2312"));

return read.ReadToEnd();

//定位到需要截取的部分

HtmlAgilityPack.HtmlDocument html = new HtmlAgilityPack.HtmlDocument();

html.LoadHtml(str);

HtmlNode rootNode = html.DocumentNode;

HtmlNodeCollection categoryNodeList = rootNode.SelectNodes("//html[1]/body[1]/div[9]/div[1]/div[1]/div[1]/ul/li");

HtmlNode temp = null;

List<Category> list = new List<Category>();

//截取部分循环

foreach (HtmlNode categoryNode in categoryNodeList)

{

temp = HtmlNode.CreateNode(categoryNode.OuterHtml);

HtmlNode singleNode = temp.SelectSingleNode(“//li/a[1]”);

Category category = new Category();

category.IndexUrl = singleNode.Attributes["href"].Value.ToString();

category.Subject = singleNode.Attributes["title"].Value.ToString();

list.Add(category);

}

public class Category
{
public string Subject { get; set; }
public string IndexUrl { get; set; }
}

////html[1]/body[1]/div[9]/div[1]/div[1]/div[1]/ul/li 截取规则

Articles/Article[1]：选取属于Articles子元素的第一个Article元素。

/Articles/Article[last()]：选取属于Articles子元素的最后一个Article元素。
/Articles/Article[last()-1]：选取属于Articles子元素的倒数第二个Article元素。
/Articles/Article[position()<3]：选取最前面的两个属于 bookstore 元素的子元素的Article元素。
//title[@lang]：选取所有拥有名为lang的属性的title元素。
//CreateAt[@type=‘zh-cn‘]：选取所有CreateAt元素，且这些元素拥有值为zh-cn的type属性。
/Articles/Article[Order>2]：选取Articles元素的所有Article元素，且其中的Order元素的值须大于2。
/Articles/Article[Order<3]/Title：选取Articles元素中的Article元素的所有Title元素，且其中的Order元素的值须小于3。

HTML解析HtmlAgilityPack,古老的榕树,5-wow.com

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

HTML解析HtmlAgilityPack

标签： des c t color http string it html class a 代码 des c t color http string it html class a 代码

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

长春武僧严寒冬日苦练功夫

长春武僧严寒冬日苦练功夫

深圳地铁站附近发生恶性砍人事件

深圳地铁站附近发生恶性砍人事件

乌鲁木齐一早市发生爆炸

乌鲁木齐一早市发生爆炸

2014年英国潜水小姐冠军出炉

2014年英国潜水小姐冠军出炉

橄榄色的文胸看起来很时尚

橄榄色的文胸看起来很时尚

1927年第五次索尔维物理会议

1927年第五次索尔维物理会议

越战结束40年裂痕犹在：越南仍未实现南北和解

越战结束40年裂痕犹在：越南仍未实现南北和解

传说中的汗血宝马

传说中的汗血宝马

沈尹默书法

沈尹默书法

2015北影表演专业考试首日校内颜值爆表

2015北影表演专业考试首日校内颜值爆表

您可能还喜欢

更多

广州打工妈妈哭诉8岁女儿被强奸4次

广州打工妈妈哭诉8岁女儿被强奸4次

专业摄影师视野是与生俱来的

专业摄影师视野是与生俱来的

潘主兰书法

潘主兰书法

冯小刚24岁女儿近照曝光叼烟表情逗趣

冯小刚24岁女儿近照曝光叼烟表情逗趣

中国最穷困人口，可怜了孩子

中国最穷困人口，可怜了孩子

男子用煤气罐挟持怀孕女友致2伤

男子用煤气罐挟持怀孕女友致2伤

南宁警方端掉一野外卖淫窝点

南宁警方端掉一野外卖淫窝点

长春刘老根大舞台不雅泥塑被拆

长春刘老根大舞台不雅泥塑被拆

绝对罕见!目睹各国名人遗容照

绝对罕见!目睹各国名人遗容照

女小偷跪地求被偷者别报警

女小偷跪地求被偷者别报警