我需要编写一个C#代码来抓取网页的内容。步骤如下所示
请帮我这个,(即使是VB.Net Code也行,我可以把它转换成C#)
答案 0 :(得分:1)
WatiN库可能就是你想要的。基本上,它控制着一个Web浏览器(对IE和Firefox的本机支持,我相信,尽管它们可能在我上次使用它之后添加了更多),并提供了一种简单的语法,用于以编程方式与该浏览器中的页面元素进行交互。您只需要这些元素的名称和/或ID,或者在页面上标识它们的一些独特方式。
答案 1 :(得分:1)
您应该能够使用WebRequest
类来检索页面,并使用HTML Agility Pack从HTML源中提取元素。
答案 2 :(得分:1)
是的,我下载了那个库。好一个。
感谢您与我分享。但我对该库有一个问题。我想获取数据的网站在登录页面上有一个“验证码”。
如果可以显示图像并等待我的输入,我可以输入该值。
如果您想要样品,我们能否从这个库中获取。
答案 3 :(得分:0)
你应该能够通过在C#,HttpWebRequest(请求网页)和XmlTextReader(解析HTML / XML响应)中使用两个类来实现这一点。
如果您不想使用XmlTextReader,那么我建议您查看正则表达式,因为它们对于从大量文本中存储信息非常有用。