从网页抓取详细信息

时间:2010-12-10 11:11:28

标签: c# automation webpage autologin

我需要编写一个C#代码来抓取网页的内容。步骤如下所示

  1. 浏览登录
  2. 我有用户名和密码,以编程方式提供并登录
  3. 然后你在详细页面
  4. 你必须在那里得到一些信息,比如(prodcut Id,Des等)
  5. 然后需要在详情视图
  6. 上点击(按代码)
  7. 然后您可以从那里获得该产品的价格
  8. 现在已经完成,所以我们可以将详细信息行写入这样的文本文件中...... ABC Printer :: 225519 :: 285.00
  9. 请帮我这个,(即使是VB.Net Code也行,我可以把它转换成C#)

4 个答案:

答案 0 :(得分:1)

WatiN库可能就是你想要的。基本上,它控制着一个Web浏览器(对IE和Firefox的本机支持,我相信,尽管它们可能在我上次使用它之后添加了更多),并提供了一种简单的语法,用于以编程方式与该浏览器中的页面元素进行交互。您只需要这些元素的名称和/或ID,或者在页面上标识它们的一些独特方式。

答案 1 :(得分:1)

您应该能够使用WebRequest类来检索页面,并使用HTML Agility Pack从HTML源中提取元素。

答案 2 :(得分:1)

是的,我下载了那个库。好一个。

感谢您与我分享。但我对该库有一个问题。我想获取数据的网站在登录页面上有一个“验证码”。

如果可以显示图像并等待我的输入,我可以输入该值。

如果您想要样品,我们能否从这个库中获取。

答案 3 :(得分:0)

你应该能够通过在C#,HttpWebRequest(请求网页)和XmlTextReader(解析HTML / XML响应)中使用两个类来实现这一点。

如果您不想使用XmlTextReader,那么我建议您查看正则表达式,因为它们对于从大量文本中存储信息非常有用。

How to: Send Data Using the WebRequest Class