使用wget工具抓取网页和图片
使用wget工具抓取网页和图片:
包括css\js\html\图片文件
wget -e robots=off -w 1 -xq -np -nH -pk -m -t 1 -P "$PATH" "$URL"
这里robots=off是因为wget默认会根据网站的robots.txt进行操作,如果robots.txt里是User-agent: * Disallow: /的话,wget是做不了镜像或者下载目录的
-e 用来执行额外的.wgetrc命令,会在.wgetrc中所有命令之后执行,因此会覆盖.wgetrc中相同的配置项。
-w seconds 资源请求下载之间的等待时间(减轻服务器的压力)
-x 创建镜像网站对应的目录结构
-q 静默下载,即不显示下载信息,你如果想知道wget当前在下载什么资源的话,可以去掉这个选项
-np 只下载给定URL下的内容,不下载它的上级内容
-nH 禁止wget以接收的URL为名称创建文件夹
-p 下载有关页面需要用到的所有资源,包括图片和css样式
-k 将绝对路径转换为相对路径(这个很重要,为了在用户打开网页的时候,加载的相关资源都在本地寻找)
-m 它会打开镜像相关的选项,比如无限深度的子目录递归下载
-t times 某个资源下载失败后的重试下载次数
-P 下载到哪个路径,,没有的话,wget会帮你自动创建
示例:
抓取的成果:
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。