这是我的一般想法:在多个销售网站(例如ebay)中搜索,以查找上个月ipad 2的平均价格。
我只想要一些方向来做这样的事情。该语言可以是PHP或Python,可以使用开源项目。
问题是像这样的系统至少需要一些自定义参数,比如日期间隔和对象名称。
那么我需要为每个网站定制一个抓取工具吗?
如何将价值与产品相关联?
这些销售网站可能会出现哪些问题?
好吧,我真的需要一些关于做类似事情的正确方法的建议。
答案 0 :(得分:1)
所以我可能需要为每个网站定制一个抓取工具?
不,您需要为每个网站自定义它的某些方面,但底层引擎将保持不变。而且您只需要一些信息,因此您必须自定义它才能获得该信息。
如何将价值与产品联系起来?
您刚刚删除了这些数据,由您来管理它的这一方面。但是,如果您正在抓取产品X,那么您将保留该产品的价格列表,并(例如)平均该列表的内容以获得平均价格。如何将该列表与产品相关联取决于您的基础数据库实现。
我可以在这些销售网站上遇到一些问题吗?
是的,当然,如果网站发生变化,那么您的刮刀可能会停止工作。这就是为什么总是使用API的原因,因为您不依赖于页面结构而不是为了获取您的内容而改变。
好吧,我真的需要一些关于正确做事的建议 类似。
优先使用API来挑选HTML。使用现有工具而不是重新发明轮子。 http://wwwsearch.sourceforge.net/mechanize/