如何提取网页中加载的额外内容

时间:2012-08-27 04:02:31

标签: c# parsing c#-4.0 html-parsing web-scraping

如何提取网页中加载的额外内容,这些内容在视图页面源中不可见。使用ajax加载额外内容。可以使用firebug在NET选项卡下看到此数据。如何使用c#代码提取此数据。

3 个答案:

答案 0 :(得分:0)

首先取决于您的应用程序,如果您使用c#应用程序作为阅读网页的客户端,那么在您放入javascript引擎之前,ajax内容可能不会显示。

如果您正在提供所述页面,则只需记录服务器的请求响应。

更具体的问题将不胜感激

答案 1 :(得分:0)

额外的内容是由ajax动态生成的(例如:Gridview生成为表),它存储在浏览器的内存中。并且可以通过客户端调试工具查看(IE具有开发人员工具选项) 回复后,所有控件的值都可用于C#。

如果你说的是额外的内容,请你澄清一下你想用c#提取什么?

答案 2 :(得分:0)

两种方式:

1-您可以使用webbrowser加载同一页面并获取active document

2-您可以复制ajax call made,并使用它来获取附加到文档的额外位。

阅读上面的例子:

当您选中复选框时,会调用ajax调用,返回结果并填充表格。您可以使用firebug控制台窗口查看该调用并查看post参数并复制它们以获得相同的结果。