我使用 wget 从网站获取一些如下所示的数据:
我有两个问题,我没有为他们找到答案 问题是正交的,但我是如何解决这两个问题的
首先,当我在某个版本中使用该功能时:
wget -r -nd -k
wget -r -nd -k -A .xml
的等。
**第一个 l 函数遍历整个站点并且需要很多时间,我的问题是,是否存在标志组合或其他版本的函数未通过整个网站?
其次,当我使用该功能时,我只获取当前网站上的数据,但我在"链接中查找数据点击"在当前网站上,而不是网站上的数据,图片如下:
我知道这里的大问题是我在网络方面的弱点,但我希望有一个简单的解决方案可以帮助我弥补这个弱点。
答案 0 :(得分:1)
您可以尝试使用--accept-regex
选项,can filter complete URLs。
wget -r --accept-regex .xml http://example.com/page
这样,WGET将下载:您指定的页面和该页面上链接的XML文件,仅此而已。
(但是如果您的XML文件是从您希望通过递归模式到达的子页面链接的,则URL过滤可能无济于事,因为WGET需要下载直接链接XML文件的页面,以便与它们联系。)
如果您不需要指定的页面,也可以添加-A xml
。这样,WGET最后会删除XML文件以外的任何内容。
wget -r --accept-regex .xml -A xml http://example.com/page
我希望这会有所帮助。