需要帮助来构建一个从HTTP请求中提取数据的“机器人”

时间:2011-10-12 14:05:12

标签: c# screen-scraping

我正在ASP.net和C#中构建一个网站,其中一个组件涉及用户代表用户登录用户拥有帐户的网站(例如手机公司),从中获取信息站点并将其存储在我们的数据库中。

我认为这个动作叫做“刮”。

是否有任何产品已经可以用来集成我的软件?

我不需要使用软件,我需要某种可以与C#代码集成的SDK。

谢谢,

Koby

3 个答案:

答案 0 :(得分:2)

使用HtmlAgilityPack解析您登录后从网络请求中获得的HTML。

请参阅此处以登录:Login to website, via C#

答案 1 :(得分:1)

到目前为止,我还没有找到任何产品 解决这个问题的一种方法是   - 自己做请求   - 使用http://htmlagilitypack.codeplex.com/从下载的html中提取重要信息   - 保存自己提取的信息

根据具体情况,有很多事情需要调整/配置,您需要非常大的产品,但仍然无法达到自定义解决方案性能/准确度:
a)多线程控制
b)提取规则
c)持久控制
d)网络爬行(或选择下一个解析链接)

答案 2 :(得分:0)

检查Web Scraping Wikipedia Entry

但是我想说,因为我们需要通过网络抓取来获取特定于应用程序的内容,大多数情况下,从Web响应流中提取所需内容可能更有效。