Question

我使用 wget 从网站获取一些如下所示的数据：

我有两个问题，我没有为他们找到答案问题是正交的，但我是如何解决这两个问题的

首先，当我在某个版本中使用该功能时：
wget -r -nd -k wget -r -nd -k -A .xml 的等。

**第一个 l 函数遍历整个站点并且需要很多时间，我的问题是，是否存在标志组合或其他版本的函数未通过整个网站？

其次，当我使用该功能时，我只获取当前网站上的数据，但我在＆＃34;链接中查找数据点击＆＃34;在当前网站上，而不是网站上的数据，图片如下：

我知道这里的大问题是我在网络方面的弱点，但我希望有一个简单的解决方案可以帮助我弥补这个弱点。

Answer 1

您可以尝试使用--accept-regex选项，can filter complete URLs。

wget -r --accept-regex .xml http://example.com/page

这样，WGET将下载：您指定的页面和该页面上链接的XML文件，仅此而已。

（但是如果您的XML文件是从您希望通过递归模式到达的子页面链接的，则URL过滤可能无济于事，因为WGET需要下载直接链接XML文件的页面，以便与它们联系。）

如果您不需要指定的页面，也可以添加-A xml。这样，WGET最后会删除XML文件以外的任何内容。

wget -r --accept-regex .xml -A xml http://example.com/page

我希望这会有所帮助。