网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

抓取网页链接

浏览数：17 / 时间：2015年06月09日

package com.smilezl.scrapy;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.Statement;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class ScrapyUrl {

/**

* 解析网页链接

* @param htmlUrl

* @throws IOException

*/

public static List<String> parserHtml(String htmlUrl) {

List<String> list = new ArrayList<String>();

try {

URL url = new URL(htmlUrl);

HttpURLConnection connection = (HttpURLConnection) url.openConnection();

connection.setDoOutput(true);

String contenttype = connection.getContentType();

String charSet = getCharset(contenttype);

if (charSet == null)

charSet = "UTF-8";

InputStreamReader isr = new InputStreamReader(connection.getInputStream(), charSet);

BufferedReader br = new BufferedReader(isr);

String str = null, rs = null;

while ((str = br.readLine()) != null) {

rs = getHref(str, htmlUrl);

if (rs != null && !list.contains(rs))

list.add(rs);

}

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

return list;

}

/**

* 获取网页编码方式

* @param str

* @return

*/

public static String getCharset(String str) {

Pattern pattern = Pattern.compile("charset=.*");

Matcher matcher = pattern.matcher(str);

if (matcher.find()) {

return matcher.group(0).split("charset=")[1];

}

return null;

}

/**

* 从一行字符串中读取链接

* @param str

* @return

*/

public static String getHref(String str, String htmlUrl) {

String patternStr = "(http://|https://){1}[\\w\\.\\-/:]+";

//String patternStr = "[^\\s]*((<\\s*[aA]\\s+(href\\s*=[^>]+\\s*)>)(.*)</[aA]>).*";

Pattern pattern = Pattern.compile(patternStr);

Matcher matcher = pattern.matcher(str);

if (matcher.find()){

return matcher.group(0);

} else {

//相对位置截取

String RelPatternStr = "href=\"/.*(html){1}";

pattern = Pattern.compile(RelPatternStr);

matcher = pattern.matcher(str);

if (matcher.find()) {

return matcher.group(0).replace("href=\"/", htmlUrl);

}

}

return null;

}

/**

* 保存链接

* @param url

*/

public static void saveUrlList(String hrefurl) {

try {

Class.forName("org.postgresql.Driver").newInstance();

String url = "jdbc:postgresql://localhost:5432/mydb?useUnicode=true&characterEncoding=gbk";

Connection con = DriverManager.getConnection(url, "postgres", "password");

Statement st = con.createStatement();

List<String> list = parserHtml(hrefurl);

for (int i = 0; i < list.size(); i++) {

String sql = "insert into scrapyurl(url,type) values(‘" + list.get(i) + "‘,0)";

System.out.println(list.get(i));

st.execute(sql);

}

st.close();

con.close();

} catch (Exception e) {

e.printStackTrace();

}

}

public static void main(String[] args) {

saveUrlList("http://fo.ifeng.com/fojiaomeiwen/list_0/0.shtml");

}

}

抓取网页链接,古老的榕树,5-wow.com

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

抓取网页链接

标签： package import public 网页 package import public 网页

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

米兰时装周火辣上演美模抱萌娃走秀场面温馨

米兰时装周火辣上演美模抱萌娃走秀场面温馨

刘亦菲神仙姐姐十年颜值一直在线

刘亦菲神仙姐姐十年颜值一直在线

奥马巴儿时旧照

奥马巴儿时旧照

香港生活成本世界最高底层人蜗居“棺材间”

香港生活成本世界最高底层人蜗居“棺材间”

范曾书法部分展览

范曾书法部分展览

专业摄影师视野是与生俱来的

专业摄影师视野是与生俱来的

浙江苍南城管打人致其吐血引近千群众围观

浙江苍南城管打人致其吐血引近千群众围观

凯特二胎生公主圆婆婆戴安娜王妃生女遗愿

凯特二胎生公主圆婆婆戴安娜王妃生女遗愿

三亚商品街打架

三亚商品街打架

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

您可能还喜欢

更多

深圳地铁站附近发生恶性砍人事件

深圳地铁站附近发生恶性砍人事件

海边想拍氛围照

海边想拍氛围照

越战结束40年裂痕犹在：越南仍未实现南北和解

越战结束40年裂痕犹在：越南仍未实现南北和解

美国小姐著比基尼参加水上排球大赛

美国小姐著比基尼参加水上排球大赛

女子占座被指责飞踹老人

女子占座被指责飞踹老人

英国黑白双胞胎姐妹走红

英国黑白双胞胎姐妹走红

广州打工妈妈哭诉8岁女儿被强奸4次

广州打工妈妈哭诉8岁女儿被强奸4次

实拍明代干尸开棺全过程(图)

实拍明代干尸开棺全过程(图)

特斯拉入门两厢车新车预览

特斯拉入门两厢车新车预览

海滩试拍

海滩试拍