wget是一个通过命令行下载文件和抓取网站的免费工具,也是Linux系统下一个非常好用HTTP下载工具,可以显示下载速度、消耗时长等,用来镜像整站、下载文件、测试网速都很方便。可惜原生Windows不带这个软件,不过我们可以自己动手,丰衣足食,自行下载wget for Windows的版本来使用。
wget可以做什么
wget命令允许您通过TCP/IP协议下载文件:支持FTP、HTTP 和 HTTPS。
如果您是Linux或Mac用户,wget要么已经包含在您正在运行的包中,要么可以直接一键安装,当然,也可以从GNU官网下载:https://www.gnu.org/software/wget/。
但是在Windows系统中,如Windows10,并不含此命令,需要手工下载exe程序。
在Windows 10系统中安装 wget
您可以在此处下载:https://eternallybored.org/misc/wget/
这里有编译好的64位版本下载,可下载zip文件,也可直接下载exe文件。
如果您希望能够从命令终端内的任何目录都能执行wget命令,则需要把存放该执行文件的目录添加到环境变量中(在我的电脑单点右键,选择属性--高级--环境变量进行设置),或者将wget.exe复制到c:\Windows\System32文件夹位置。这样您将就可以能够使用命令提示符在任何目录中运行wget命令。
如果要测试wget命令是否正常工作,请在CMD窗口中输入:
wget -h
显示正确,就可以执行下载命令了,最简单的写法就是用wget.exe http//域名/目录/文件名,就可以下载文件了。
常用命令
要镜像目标站点,请执行以下命令:
wget -r https://www.targetsite.com
要镜像站点并本地化所有 url:
wget --convert-links -r https://www.
targetsite
.com
要制作站点的完整离线镜像:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent https://www.
targetsite
.com
要镜像站点并将文件另存为 .html:
wget --html-extension -r https://www.
targetsite
.com
要从站点下载所有jpg图像:
wget -A "*.jpg" -r https://www.
targetsite
.com
设置不同的用户代理:
一些 Web 服务器被设置为拒绝wget的默认用户UA,您可以尝试更改您的UA来解决这个问题。例如,通过伪装成 Googlebot:
wget --user-agent="Googlebot/2.1 (+https://www.googlebot.com/bot.html)" -r https://www.
targetsite
.com
wget“蜘蛛”模式:
wget可以在不保存页面的情况下获取页面,如果您正在寻找网站上的损坏链接,这可能是一个有用的功能。请记住启用递归模式,这允许wget扫描文档并查找要遍历的链接。
wget --spider -r https://www.
targetsite
.com
您还可以通过添加此选项将其保存到日志文件中:
wget --spider -r https://www.
targetsite
.com -o wget.log