我正在使用自己的搜索引擎。如何使用其他门户内容?

时间:2018-10-12 09:54:48

标签: java rest http

我打算创建一个新网站,将其作为自行车的集中式搜索引擎。想法是,访问者可以在我的网站上执行搜索,然后从那里的其他几个门户获取报价。诸如swoodoo,skyskanner等用于飞行,但用于自行车。

如果其他门户网站不提供公共api,则查询其他门户网站(使用java)的最佳方法是什么?我正在使用的“最佳”选项是向每个门户发送硬编码的GET或POST请求,然后处理它们的响应,但这似乎很难维护,根本不是一个好选择。

有什么提示或阅读材料可以指向我吗?

1 个答案:

答案 0 :(得分:0)

所以从我的角度来看,您有两种选择:

  • 查询公共API以获取需求数据
  • 为网站预留数据

最好的选择是不同的,如果您感兴趣的站点具有可查询的公共API以获取信息。我怀疑很多网站都有这个。

因此,第二个选项将是两个替换站点,以获取您感兴趣的信息。如果选择此选项,请注意,每次您刮擦的站点都会更改HTML结构ID,类等。您的刮擦功能可能需要进行维护。

因此,通过选择此选项,请注意需要不断维护抓取程序!

这里有一个链接,解释什么是刮削以及如何完成刮削:https://www.youtube.com/watch?v=vsmxMLmroyQ

这不是特定于Java的,但是您可以将其映射到Java。