应用错误收集

时间：2010-12-10 11:11:28

标签： c# automation webpage autologin

我需要编写一个C＃代码来抓取网页的内容。步骤如下所示

请帮我这个，（即使是VB.Net Code也行，我可以把它转换成C＃）

答案 0 :(得分：1)

WatiN库可能就是你想要的。基本上，它控制着一个Web浏览器（对IE和Firefox的本机支持，我相信，尽管它们可能在我上次使用它之后添加了更多），并提供了一种简单的语法，用于以编程方式与该浏览器中的页面元素进行交互。您只需要这些元素的名称和/或ID，或者在页面上标识它们的一些独特方式。

答案 1 :(得分：1)

您应该能够使用WebRequest类来检索页面，并使用HTML Agility Pack从HTML源中提取元素。

答案 2 :(得分：1)

是的，我下载了那个库。好一个。

感谢您与我分享。但我对该库有一个问题。我想获取数据的网站在登录页面上有一个“验证码”。

如果可以显示图像并等待我的输入，我可以输入该值。

如果您想要样品，我们能否从这个库中获取。

答案 3 :(得分：0)

你应该能够通过在C＃，HttpWebRequest（请求网页）和XmlTextReader（解析HTML / XML响应）中使用两个类来实现这一点。

如果您不想使用XmlTextReader，那么我建议您查看正则表达式，因为它们对于从大量文本中存储信息非常有用。