网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

使用正则表达式提取网页有效信息

浏览数：37 / 时间：2015年06月09日

从HTML页面提取内容所面临的主要问题是，我们必须寻找一种方法精确地识别出自己想要的那一部分内容。

以下是利用正则表达式匹配并提取网页中特定信息的方法：

采集网页中所有链接标记：

<a[^>]*?>[\s\S]*?</a>

以上可以修改a标记采集对应的标记元素。

采集图片：

<img[^>]*?/?>

以上可以修改img标记采集对应的标记元素。

<div[^>]*?id="idname"[^>]*?>[\s\S]*?</div>

根据 id与 class 取div段的内容，请以最小单位取div，因为嵌套关系会破坏，取出来的标记不匹配。

如果要匹配的话请使用下面的正则表式：

<(?<HtmlTag>div)[^>]*\sid=(?<Quote>["‘]?)idname(?(Quote)\k<Quote>)["‘]?[^>]*>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|[\s\S]*?)*</\k<HtmlTag>>

对采集出来的html片段中链接地址去除：

<a(.[^>]*？)href(.[^>]*？)> 提取来替换成空。

再把</a>替换成空。

使用正则表达式提取网页有效信息,古老的榕树,5-wow.com

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

使用正则表达式提取网页有效信息

标签： class html 问题 re 使用 sp class html 问题 re 使用 sp

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

特斯拉 MODEL S 图集

特斯拉 MODEL S 图集

11岁女孩因抄作业被父亲发现吊打身亡

11岁女孩因抄作业被父亲发现吊打身亡

橄榄色的文胸看起来很时尚

橄榄色的文胸看起来很时尚

南宁警方端掉一野外卖淫窝点

南宁警方端掉一野外卖淫窝点

广州海陆空盛筵开场比基尼美女助阵

广州海陆空盛筵开场比基尼美女助阵

男子在背上刺《清明上河图》历时7天完成

男子在背上刺《清明上河图》历时7天完成

车模精选

车模精选

普京小时候照片

普京小时候照片

刘亦菲神仙姐姐十年颜值一直在线

刘亦菲神仙姐姐十年颜值一直在线

姚奠中书法

姚奠中书法

您可能还喜欢

更多

叶梓萱最新比基尼泳装写真玲珑曲线迷倒人

叶梓萱最新比基尼泳装写真玲珑曲线迷倒人

赵忠祥5亿豪宅再次曝光

赵忠祥5亿豪宅再次曝光

尼泊尔四个月大婴儿震后22小时获救

尼泊尔四个月大婴儿震后22小时获救

2015北影表演专业考试首日校内颜值爆表

2015北影表演专业考试首日校内颜值爆表

刘雯秀场新造型太震撼，两条带子做衣服太时髦，肩部“凹凸不平”

刘雯秀场新造型太震撼，两条带子做衣服太时髦，肩部“凹凸不平”

2022年哈尔滨国际比基尼模特大赛

2022年哈尔滨国际比基尼模特大赛

黄海波事件的女主角

黄海波事件的女主角

车臣47岁已婚军阀逼婚17岁少女

车臣47岁已婚军阀逼婚17岁少女

长春刘老根大舞台不雅泥塑被拆

长春刘老根大舞台不雅泥塑被拆

鲁迅书法绵里裹铁

鲁迅书法绵里裹铁