Question

有没有办法在不从代码中打开浏览器的情况下从C＃应用程序查看生成的网页源（所有AJAX调用和JavaScript DOM操作之后的代码）？

使用WebRequest或WebClient对象查看初始页面可以正常工作，但如果页面大量使用JavaScript来改变页面加载时的DOM，那么这些页面无法提供准确的图片页面。

我尝试过使用Selenium和Watin UI测试框架，它们运行良好，提供所有JavaScript操作完成后显示的生成源。不幸的是，他们通过打开一个非常慢的实际Web浏览器来实现这一点。我已经实现了一个selenium服务器，可以将这项工作卸载到另一台机器上，但是仍然存在很大的延迟。

是否有.Net库可以加载和解析页面（如浏览器）并吐出生成的代码？显然，谷歌和雅虎并没有为他们想要蜘蛛的每个页面开放浏览器（当然，他们可能拥有比我更多的资源......）。

是否有这样的图书馆，或者我运气不好，除非我愿意剖析开源浏览器的源代码？

解

好的，谢谢大家的帮助。我有一个比Selenium快10倍的工作解决方案。宇！

感谢这个old article from beansoftware我能够使用System.Windows.Forms.WebBrowser控件下载页面并解析它，然后给em生成源代码。即使控件在Windows.Forms中，你仍然可以从Asp.Net运行它（这就是我正在做的），只需记住将System.Window.Forms添加到你的项目引用中。

代码有两个值得注意的事情。首先，在新线程中调用WebBrowser控件。这是因为它必须在single threaded apartment上运行。

其次，GeneratedSource变量设置在两个地方。这不是由于智能设计决定:)我还在努力，并在我完成后更新这个答案。多次调用wb_DocumentCompleted（）。首先下载初始HTML，然后在第一轮JavaScript完成时再次下载。不幸的是，我正在抓的网站有3个不同的加载阶段。 1）加载初始HTML 2）做第一轮JavaScript DOM操作3）暂停半秒然后进行第二轮JS DOM操作。

由于某种原因，第二轮不是由wb_DocumentCompleted（）函数引起的，但是当wb.ReadyState == Complete时它总是被捕获。那么为什么不从wb_DocumentCompleted（）中删除它呢？我仍然不确定为什么它没有被抓到那里，这是珠宝软件文章推荐的地方。我要继续研究它。我只是想发布这个代码，所以任何有兴趣的人都可以使用它。享受！

using System.Threading;
using System.Windows.Forms;

public class WebProcessor
{
    private string GeneratedSource{ get; set; }
    private string URL { get; set; }

    public string GetGeneratedHTML(string url)
    {
        URL = url;

        Thread t = new Thread(new ThreadStart(WebBrowserThread));
        t.SetApartmentState(ApartmentState.STA);
        t.Start();
        t.Join();

        return GeneratedSource;
    }

    private void WebBrowserThread()
    {
        WebBrowser wb = new WebBrowser();
        wb.Navigate(URL);

        wb.DocumentCompleted += 
            new WebBrowserDocumentCompletedEventHandler(
                wb_DocumentCompleted);

        while (wb.ReadyState != WebBrowserReadyState.Complete)
            Application.DoEvents();

        //Added this line, because the final HTML takes a while to show up
        GeneratedSource= wb.Document.Body.InnerHtml;

        wb.Dispose();
    }

    private void wb_DocumentCompleted(object sender, 
        WebBrowserDocumentCompletedEventArgs e)
    {
        WebBrowser wb = (WebBrowser)sender;
        GeneratedSource= wb.Document.Body.InnerHtml;
    }
}

Answer 1

它可能正在使用浏览器的实例（在您的情况下：ie控件）。您可以在应用中轻松使用并打开页面。然后控件将加载它并处理任何JavaScript。完成后，您可以访问控件dom对象并获取“解释”代码。

Answer 2

最好的方法是使用PhantomJs。那很棒。（样本为Article）。

我的解决方案如下：

var page = require('webpage').create();

page.open("https://sample.com", function(){
    page.evaluate(function(){
        var i = 0,
        oJson = jsonData,
        sKey;
        localStorage.clear();

        for (; sKey = Object.keys(oJson)[i]; i++) {
            localStorage.setItem(sKey,oJson[sKey])
        }
    });

    page.open("https://sample.com", function(){
        setTimeout(function(){
         page.render("screenshoot.png") 
            // Where you want to save it    
           console.log(page.content); //page source
            // You can access its content using jQuery
            var fbcomments = page.evaluate(function(){
                return $("body").contents().find(".content") 
            }) 
            phantom.exit();
        },10000)
    });     
});

Answer 3

理论上是的，但是，目前，没有。

我认为目前没有产品或OSS项目可以做到这一点。这样的产品需要拥有自己的javascript解释器，并且能够准确地模拟它支持的每个浏览器的运行时环境和怪癖。

鉴于您需要能够准确模拟服务器+浏览器环境以生成最终页面代码的内容，从长远来看，我认为使用浏览器实例是在最终状态下准确生成页面的最佳方式。尤其如此，当您考虑到页面加载完成后，页面源仍然可以在浏览器中随时间从AJAX / javascript中更改。

在C＃中查看生成的源（在AJAX / JavaScript之后）

3 个答案: