应用错误收集

价格比较网站 - 它们如何运作？

时间：2010-08-03 15:36:32

标签： xml xslt rss

我只是想知道是否有人可以向我解释价格比较网站的运作方式？我的意思是，如果它按照我的想法行事（下面解释）那么我有一个非常好的项目可以为我自己工作，这应该可以长期赚很多钱。

所以我认为它的工作原理是每个供应商提供比较网站连接的RSS提要。每个产品都有自己独特的代码（由制造商提供），并在RSS提要中以标准标签提供。比较网站收集有关谁提供哪种产品的数据，并比较提供特定产品的数据。例如，图书出版商可以提供包含每本书背面的模糊信息的RSS提要，ISBN，出版商名称，作者，标题（显然），RRP，流派，事实/小说以及一些其他有用的信息，所有这些都在标签中，例如＆lt; ISBN＆gt; ISBN here＆lt; / ISBN＆gt;。销售书籍的比较网站可以按流派，作者等过滤这些书籍，并使用xsl样式表（以XML提供的RSS源）显示他们想要的内容。

这是正确的，还是我对RSS是什么或它是如何工作的完全错误的想法？还有什么方法可以达到同样的目的？

非常感谢提前。

此致

理查德

PS如果标记错误并且应该转移到另一个部分，那么请有人重新标记它。我试图找到价格比较网站或类似的东西，但没有这样的标签。我已经把我能想到的最相关。

5 个答案:

答案 0 :(得分：10)

你的概念似乎更像是理想的世界形势。实际上，该网站使用与任何其他搜索引擎一样的爬虫。该网站只是优化了抓取工具以获取价格和产品信息。例如，他们知道戴尔网站上某个商品的价格位于ID为“foo”的div中，而产品信息位于“立即购买”字样后的第3个p标签中。

他们很可能也会限制他们抓取哪些网站给知名零售商。

答案 1 :(得分：5)

正如speshak所说，他们通常使用爬虫并解析HTML。

商店网站不提供RSS源的原因是因为他们讨厌比较网站。它严格关注价格竞争。如果监控20家商店，这意味着商店有20％的机会不是最低的。商店宁愿您直接访问他们的网站，他们有机会说服您根据服务支付价格。

答案 2 :(得分：0)

我认为网站爬虫不是最佳选择，我认为这不是合法的，至少在西班牙是这样。如果不允许，您不能使用其他人的产品品牌

答案 3 :(得分：0)

价格比较网站通过后端数据抓取动态抓取各种在线购物门户网站的结果，并向客户提供最优惠的交易，然后可以直接将其重定向到提供最便宜交易并完成购买的购物门户。他们采用快速查询处理技术，为消费者带来快速搜索结果，并提供轻松导航，使客户能够在单一平台上浏览最受欢迎的品牌，最受欢迎的产品和畅销产品。他们在LAMP平台上使用开源技术即PHP / MySql来完成实时比较的任务。

答案 4 :(得分：0)

逻辑可能因网站而异。我们抓取主要的在线食品提供网站来获取菜单详细信息。并非所有网站都公开API，因此网站爬行是唯一的方法。我们目前正在使用Jsoup库（用于Java平台）来提取这些网站的HTML。