从网页上获取所有链接的文件

时间:2020-04-02 07:18:48

标签: wget

第一次海报!我试图获取该网站https://promo.betfair.com/betfairsp/prices上链接的所有.csv文件,但是当我使用wget函数时,它实际上并没有获取文件(创建一个以网站txt格式打开的价格文件)。

wget -r --no-parent -e robots=off https://promo.betfair.com/betfairsp/prices

任何想法或帮助将不胜感激! 谢谢!

1 个答案:

答案 0 :(得分:0)

我建议有一种方法可以从您提供的link下载所有 csv 文件。

  1. 使用开发者控制台运行JavaScript以获取网站中的所有href链接。

注意:由于此特定站点中的所有链接都是csv文件的链接,因此我们只会获取csv文件的链接。

var urls = [];
for(var i = document.links.length; i --> 0;)
    if(document.links[i].hostname === location.hostname)
        urls.push(document.links[i].href);
  1. 现在我们有了一个包含链接(URL)的js数组,将其转换为json以作为文本文件下载
function download(content, fileName, contentType) {
    var a = document.createElement("a");
    var file = new Blob([content], {type: contentType});
    a.href = URL.createObjectURL(file);
    a.download = fileName;
    a.click();
}
download(urls, 'json.txt', 'text/plain');
  1. 格式化文本文件,以便我们可以对它执行批处理wget操作。image
  2. wget -i json.txt下载CSV文件 image