使用Web爬虫进行价格比较

时间:2010-02-16 00:07:48

标签: java web-crawler

我需要一个基于Java的开源网络爬虫,我可以扩展它以进行价格比较吗? 我该如何进行价格比较? 是否有任何开源代码?

5 个答案:

答案 0 :(得分:3)

看一下网络收获,你将不得不使用它处理网页的奇怪和奇怪的语法,但是应该公平地扩展它以进行一些价格比较:

http://web-harvest.sourceforge.net/samples.php?num=2

答案 1 :(得分:2)

无论是从商店本身还是现有的比较网站,建立一些从大量不同网站上删除价格信息的东西都会有很多工作。

  • 每个人的网站布局都不同,要求您为每个人单独配置抓取工具。

  • 某些网站可能会以难以解决的方式提供价格信息;例如使用AJAX。

有些网站所有者会将相关网页放入他们的robots.txt文件中,告诉您远离他们。如果你忽视这一点,他们可以采取各种措施让你的生活变得困难。

未经许可掠夺许多人的网站可能会让你不受欢迎。它可能会引发诉讼威胁,或者是那些认为你正在损害其商业模式的人的实际诉讼。或者其他回复......

你真的确定要这么做吗?真??

答案 2 :(得分:1)

您有什么理由不能从已经存在的数百个价格比较网站之一获取数据吗?似乎更容易刮掉nextag或froogle或其他任何东西,而不是编写一个爬虫来刮掉数十亿商店网站。

答案 3 :(得分:0)

没有人希望他们的网站在没有任何好处的情况下超载。我认为您应该根据需要创建一个爬虫。但请注意,大多数人可能会阻止您或使您的回复变慢。你需要表现得像你不是一个人并且吃掉他们的带宽......

答案 4 :(得分:0)

这里有人写过有关法律问题的文章。法律问题并不简单。斯蒂芬C撰写了关于诉讼的文章,但这有两个方面。有许多与反竞争行为有关的法律。如果有人希望他们的价格不被报告,因为他们参与了价格操纵或虚假索赔,那么网站本身就会面临严厉的处罚。法律不是简单的引用。你可以谷歌定价,并看到已经无数公司的巨额罚款。