我正在ASP.net和C#中构建一个网站,其中一个组件涉及用户代表用户登录用户拥有帐户的网站(例如手机公司),从中获取信息站点并将其存储在我们的数据库中。
我认为这个动作叫做“刮”。
是否有任何产品已经可以用来集成我的软件?
我不需要使用软件,我需要某种可以与C#代码集成的SDK。
谢谢,
Koby
答案 0 :(得分:2)
使用HtmlAgilityPack解析您登录后从网络请求中获得的HTML。
请参阅此处以登录:Login to website, via C#
答案 1 :(得分:1)
到目前为止,我还没有找到任何产品 解决这个问题的一种方法是 - 自己做请求 - 使用http://htmlagilitypack.codeplex.com/从下载的html中提取重要信息 - 保存自己提取的信息
根据具体情况,有很多事情需要调整/配置,您需要非常大的产品,但仍然无法达到自定义解决方案性能/准确度:
a)多线程控制
b)提取规则
c)持久控制
d)网络爬行(或选择下一个解析链接)
答案 2 :(得分:0)
检查Web Scraping Wikipedia Entry。
但是我想说,因为我们需要通过网络抓取来获取特定于应用程序的内容,大多数情况下,从Web响应流中提取所需内容可能更有效。