博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[1line]用wget镜像网站
阅读量:6875 次
发布时间:2019-06-26

本文共 1503 字,大约阅读时间需要 5 分钟。

hot3.png

最近收藏了一些老站点,是那些很久不更新,但是又有很多资源的站。

光是收藏感觉还不靠谱,谁知道哪天她们就突然消失了,所以决定镜像一下。

比如我要镜像www.oschina.net,oneline:

wget -c -m -k -np -p -w 10 --random-wait --waitretry=5 http://www.oschina.net/
解释一下:

-c --continue的意思,简单来说就是续传

-m --mirror的意思,专门用来做镜像用的

-k --convert-links,转换镜像中的链接,把可能的链接都转换成本地相对链接,方便本地浏览

-np --no-parent,不处理父亲目录

-p --page-requisites,wget会把显示一个html页面的所有元素都下载下来,包括图片、声音、样式表等

-w --wait,在做镜像的时候推荐加上--wait,这样相邻两次请求之间会隔上指定的时间,不会对服务器造成太多的负担

--random-wait, 和--wait配合使用,可以将请求间的等待时间一定范围内随机话;也可以避过站点的日志分析

--waitretry,当一个请求失败时,wget会再次请求,直到到达指定的次数

如果从浏览器中可以访问某个站点,但是在wget的时候返回“HTTP request sent, awaiting response... 403 Forbidden”,此时需要用-U(--user-agent)来改变wget的"User-Agent"字段。

可以用nc来获取浏览器的信息,执行下面的命令:

nc -l 8000

打开浏览器(我用的是chrome),访问http://localhost:8000,查看nc的输出:

GET / HTTP/1.1Host: localhost:8000Connection: keep-aliveUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.101 Safari/537.11Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8Accept-Encoding: gzip,deflate,sdchAccept-Language: en-US,en;q=0.8Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3

User-Agent:字段就是我们要的。

所以最终的命令是:

wget -U "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.101 Safari/537.11" -c -m -k -np -p -w 10 --random-wait --waitretry=5 http://www.oschina.net/
大功告成,接下来是漫长的等待……

更新:

如果网站结构层次较多,有可能发现down下来的网站缺少文件,这个时候可以试下-l depth(--level=depth)来指定最大遍历层数,默认是5层。

转载于:https://my.oschina.net/luckykiddie/blog/99190

你可能感兴趣的文章
简单干净的C#方法设计案例:SFCUI.AjaxLoadPage()之一
查看>>
XMPP协议的原理介绍
查看>>
Undo管理
查看>>
jsp简易留言板
查看>>
3.15好水指数N1能否让饮水健康不失控?
查看>>
Linux防火墙的设置
查看>>
人人商城PHP网站打开网页空白
查看>>
redhat修改源
查看>>
ruby 访问权限
查看>>
linux磁盘管理命令--df
查看>>
cocos2d: 单击,双击,及双指捏合事件的判断
查看>>
读书笔记《unix系统编程》-第2章 文件
查看>>
统一日志平台-搭建
查看>>
项目经理,不要迷信制度!
查看>>
NDK如何集成libiconv
查看>>
我的友情链接
查看>>
WEB服务器错误代码信息对照
查看>>
POJ 3686 The Windy's 最小费用最大流
查看>>
RH124-13 软件包安装与升级
查看>>
我的友情链接
查看>>