从多个站点获取HTML页面源

时间:2014-05-09 18:41:48

标签: c# html winforms

有几个网站使用AJAX定期更新内容,我想监控它们。这就是为什么有必要保持多个网页窗口始终打开并定期抓取页面来源。

我正在寻找从这些网页获取HTML源代码的方法!你能推荐什么吗?我需要它进行统计分析。

到目前为止,我的想法是:

  1. 的方法。手动打开单独的Chrome窗口。使用Handles查找窗口。问题是,抓取网页的HTML几乎是不可能的..(富文本除外)

  2. 方法。为Chrome / Firefox和C#程序编写扩展程序。程序将向扩展发送请求,扩展程序将返回网页的HTML内容。这就是理论。谷歌并没有把我的希望寄托在高位,所以我不确定这是否可能......

  3. 方法。最现实的一个。使用嵌入浏览器,如CefSharp,Awesomium等。但正如我所提到的 - 他们必须支持多个打开的窗口!这里有什么问题吗?

  4. 所以,经过数小时的学习后,这些是我的想法。 就个人而言,我很乐意实施方法2,因为它是最棒的...但其他人也会这样做。什么是最容易和最防弹的?

    另外我希望能在这些窗口中进行一些输入操作。例如:登录/导航。

    enter image description here

1 个答案:

答案 0 :(得分:0)

如果IE浏览器是一个选项,请查看实现托管附加组件,该附加组件允许您在加载文档时访问通知,访问文档的实时DOM,可能在DOM更改时发出通知,等等。在FF / Chrome中也可以这样做。使用IE,查看IObjectWithSite COM接口。 This article seems to be a decent tutorial,虽然我没有保证其准确性。