如何使用wget下载整个动态页面?

时间:2018-10-11 17:29:07

标签: wget

我正在尝试使用Linux中的wget命令从网站下载页面,例如,我想要获取的是页面的html代码中包含的信息。

我已经尝试使用R's Rvest和Python的漂亮汤,但是它没有用,所以现在我正在尝试wget,并且大多数情况下,我会在.css和.js中获得脚本,但无法提取有用的信息(据我所知),因此总而言之,我想使用wget命令从动态站点中提取a的信息。

我使用了-F,-i等参数,请记住,我一般对计算机科学和Linux还是陌生的,因此,如果这个问题很简单,请解释一下,谢谢。

此外,如有必要,我可以发布到现在为止所做的事情。

1 个答案:

答案 0 :(得分:0)

使用VBA和https://phantomjs.org/

sDir = ThisWorkbook.Path
sCmd = "cmd.exe /K cd """ & sDir & """ & phantomjs.exe phm_save.js " & sURL & " > " & sFile
pid = Shell(sCmd, vbHide)

phm_save.js

   var system = require('system');
   var page = require('webpage').create();

   page.open(system.args[1], function(){
       console.log(page.content);
       phantom.exit();
    }
   );