Java Web搜寻器和抓取器

时间:2019-06-25 10:45:52

标签: java web browser

我的目的是从各个网站读取产品的成本明细,以便我可以在Spring应用程序的html页面中显示成本比较明细。有人能建议我怎么做吗。有什么技术可以做到这一点?这样我就可以始终从其他网站读取更新的数据,并将其显示在Spring应用程序中。我看到一些Web抓取工具作为Chrome扩展程序,但它会生成Excel工作簿。我如何在Spring应用程序中使用它并在HTML页面中显示它?

2 个答案:

答案 0 :(得分:0)

您可以从spring应用程序发送http查询,并解析答案以更新数据。或者,您可以使用任何可以刮取任何内容并保存结果的外部工具(例如,保存为Excel工作簿),然后您的应用程序将读取此结果并根据需要对其进行处理。

答案 1 :(得分:0)

有很多基于Java和python的开源抓取工具,您可以根据需要进行配置,其中一些如下所述。

Apache Nutch
StormCrawler
Jsoup
Jaunt

在您的情况下,由于您只需要产品页面中的价格,因此可以使用JSoup构建自己的产品,而JSoup是Java中可用的框架,也可以是Python中的Beautiful Soup模块。

如果您不必担心缩放比例,而您只想每天抓取一些页面,则建议您构建自己的抓取工具。否则,您可以使用Nutch或StormCrawler

对于定制产品,请不要为不同的网页提供多个选择器,实际上,只需找出通用标签,CSS或模板即可为您定价。