我正在尝试使用Linux中的wget命令从网站下载页面,例如,我想要获取的是页面的html代码中包含的信息。
我已经尝试使用R's Rvest和Python的漂亮汤,但是它没有用,所以现在我正在尝试wget,并且大多数情况下,我会在.css和.js中获得脚本,但无法提取有用的信息(据我所知),因此总而言之,我想使用wget命令从动态站点中提取a的信息。
我使用了-F,-i等参数,请记住,我一般对计算机科学和Linux还是陌生的,因此,如果这个问题很简单,请解释一下,谢谢。
此外,如有必要,我可以发布到现在为止所做的事情。
答案 0 :(得分:0)
使用VBA和https://phantomjs.org/
sDir = ThisWorkbook.Path
sCmd = "cmd.exe /K cd """ & sDir & """ & phantomjs.exe phm_save.js " & sURL & " > " & sFile
pid = Shell(sCmd, vbHide)
phm_save.js
var system = require('system');
var page = require('webpage').create();
page.open(system.args[1], function(){
console.log(page.content);
phantom.exit();
}
);