编写一个扫描电子商务网站的C#程序,并从中提取产品图片+价格+描述

时间:2009-02-06 07:06:31

标签: c# screen-scraping

我正在开发一个电子商务搜索引擎,允许您在很多电子商务网站中搜索产品。

我如何处理此事?

我需要一个能够扫描网站,解析HTML并确定网站中哪些图像是产品图片的应用程序,这些产品描述是产品价格。

很高兴听到任何想法,例如。

提前致谢。

编辑: 我的问题不是如何从网站上获取HTML(称为屏幕抓取),而是更多关于如何解析该信息并了解哪些html包含我正在寻找的实际数据,哪些不是。

2 个答案:

答案 0 :(得分:2)

您可能会发现this thread对您的任务很有帮助。我概述了那里的基本步骤。这是SO上标记为“Screen-scraping”的所有问题的链接。此外,网上有很多资料 - Google

答案 1 :(得分:1)

您要抓取的大多数网站(更正确web-scraping)都有“代理商”类型交易的合作伙伴API。对于您来说,通过屏幕抓取可以快速发现您的IP被其流量服务器阻止,并可能使您处于合法境地。

这在道德上是可疑的。