如何从点击中获取数据"链接"以及如何在不传递整个网站的情况下获取特定类型

时间:2017-10-01 07:23:20

标签: bash wget

我使用 wget 从网站获取一些如下所示的数据:

enter image description here 我有两个问题,我没有为他们找到答案  问题是正交的,但我是如何解决这两个问题的

首先,当我在某个版本中使用该功能时:
wget -r -nd -k wget -r -nd -k -A .xml等。

**第一个 l 函数遍历整个站点并且需要很多时间,我的问题是,是否存在标志组合或其他版本的函数未通过整个网站?

其次,当我使用该功能时,我只获取当前网站上的数据,但我在"链接中查找数据点击"在当前网站上,而不是网站上的数据,图片如下:

enter image description here

我知道这里的大问题是我在网络方面的弱点,但我希望有一个简单的解决方案可以帮助我弥补这个弱点。

1 个答案:

答案 0 :(得分:1)

您可以尝试使用--accept-regex选项,can filter complete URLs

wget -r --accept-regex .xml http://example.com/page

这样,WGET将下载:您指定的页面和该页面上链接的XML文件,仅此而已。

(但是如果您的XML文件是从您希望通过递归模式到达的子页面链接的,则URL过滤可能无济于事,因为WGET需要下载直接链接XML文件的页面,以便与它们联系。)

如果您不需要指定的页面,也可以添加-A xml。这样,WGET最后会删除XML文件以外的任何内容。

wget -r --accept-regex .xml -A xml http://example.com/page

我希望这会有所帮助。