Question

我正在尝试使用Linux中的wget命令从网站下载页面，例如，我想要获取的是页面的html代码中包含的信息。

我已经尝试使用R's Rvest和Python的漂亮汤，但是它没有用，所以现在我正在尝试wget，并且大多数情况下，我会在.css和.js中获得脚本，但无法提取有用的信息（据我所知），因此总而言之，我想使用wget命令从动态站点中提取a的信息。

我使用了-F，-i等参数，请记住，我一般对计算机科学和Linux还是陌生的，因此，如果这个问题很简单，请解释一下，谢谢。

此外，如有必要，我可以发布到现在为止所做的事情。

Answer 1

使用VBA和https://phantomjs.org/

sDir = ThisWorkbook.Path
sCmd = "cmd.exe /K cd """ & sDir & """ & phantomjs.exe phm_save.js " & sURL & " > " & sFile
pid = Shell(sCmd, vbHide)

phm_save.js

   var system = require('system');
   var page = require('webpage').create();

   page.open(system.args[1], function(){
       console.log(page.content);
       phantom.exit();
    }
   );

如何使用wget下载整个动态页面？

1 个答案: