使用wget工具抓取网页和图片

使用wget工具抓取网页和图片:

包括css\js\html\图片文件


wget -e robots=off -w 1 -xq -np -nH -pk -m  -t 1 -P "$PATH" "$URL"


这里robots=off是因为wget默认会根据网站的robots.txt进行操作,如果robots.txt里是User-agent: * Disallow: /的话,wget是做不了镜像或者下载目录的

-e 用来执行额外的.wgetrc命令,会在.wgetrc中所有命令之后执行,因此会覆盖.wgetrc中相同的配置项。

-w seconds 资源请求下载之间的等待时间(减轻服务器的压力)

-x 创建镜像网站对应的目录结构

-q 静默下载,即不显示下载信息,你如果想知道wget当前在下载什么资源的话,可以去掉这个选项

-np 只下载给定URL下的内容,不下载它的上级内容

-nH 禁止wget以接收的URL为名称创建文件夹

-p 下载有关页面需要用到的所有资源,包括图片和css样式

-k 将绝对路径转换为相对路径(这个很重要,为了在用户打开网页的时候,加载的相关资源都在本地寻找)

-m 它会打开镜像相关的选项,比如无限深度的子目录递归下载

-t times 某个资源下载失败后的重试下载次数

-P 下载到哪个路径,,没有的话,wget会帮你自动创建


示例:

技术分享


抓取的成果:

技术分享


郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。