我正在开发一个电子商务搜索引擎,允许您在很多电子商务网站中搜索产品。
我如何处理此事?
我需要一个能够扫描网站,解析HTML并确定网站中哪些图像是产品图片的应用程序,这些产品描述是产品价格。
很高兴听到任何想法,例如。
提前致谢。
编辑: 我的问题不是如何从网站上获取HTML(称为屏幕抓取),而是更多关于如何解析该信息并了解哪些html包含我正在寻找的实际数据,哪些不是。
答案 0 :(得分:2)
您可能会发现this thread对您的任务很有帮助。我概述了那里的基本步骤。这是SO上标记为“Screen-scraping”的所有问题的链接。此外,网上有很多资料 - Google。
答案 1 :(得分:1)
您要抓取的大多数网站(更正确web-scraping)都有“代理商”类型交易的合作伙伴API。对于您来说,通过屏幕抓取可以快速发现您的IP被其流量服务器阻止,并可能使您处于合法境地。
这在道德上是可疑的。