通过PhantomJs下载带有Knockout绑定的页面

时间:2017-12-29 00:21:18

标签: c# knockout.js web-scraping phantomjs

我想用PhantomJs解析Microsoft Virtual Academy上的一个页面。例如this one。我可以加载它(请参阅result),但在下载的源代码中,我看不到课程说明或其持续时间。

要下载我已使用下一种方法的页面:https://gist.github.com/DotNetNerd/5635371

public string Grab(string url)
{
    var process = new System.Diagnostics.Process();
    var startInfo = new System.Diagnostics.ProcessStartInfo
    {
        WindowStyle = System.Diagnostics.ProcessWindowStyle.Hidden,
        UseShellExecute = false,
        RedirectStandardOutput = true,
        FileName = Config.PhantomJSPath,
        Arguments = string.Format("\"{0}\\{1}\" {2}", Directory.GetParent(Directory.GetCurrentDirectory()).Parent.FullName, "index.js", url)
    };

    process.StartInfo = startInfo;
    process.Start();
    string output = process.StandardOutput.ReadToEnd();
    process.WaitForExit();

    return output;
}

和IndexJs

var page = require('webpage').create(),
system = require('system');

page.onLoadFinished = function() {
  console.log(page.content);
    phantom.exit();
};
page.open(system.args[1]);

我应该将phantomjs配置为等待绑定生效还是PhantomJs根本不支持它?

1 个答案:

答案 0 :(得分:0)

最后,我决定在页面加载后等待5秒。它不能保证一切都会在这个时候加载,但对我有用。

Index.js已更新为:

var page = require('webpage').create(),
system = require('system');

page.onLoadFinished = function() {
    setTimeout(function () {
        console.log(page.content);
        phantom.exit();
}, 5000);

};
page.open(system.args[1]);