我打算创建一个新网站,将其作为自行车的集中式搜索引擎。想法是,访问者可以在我的网站上执行搜索,然后从那里的其他几个门户获取报价。诸如swoodoo,skyskanner等用于飞行,但用于自行车。
如果其他门户网站不提供公共api,则查询其他门户网站(使用java)的最佳方法是什么?我正在使用的“最佳”选项是向每个门户发送硬编码的GET或POST请求,然后处理它们的响应,但这似乎很难维护,根本不是一个好选择。
有什么提示或阅读材料可以指向我吗?
答案 0 :(得分:0)
所以从我的角度来看,您有两种选择:
最好的选择是不同的,如果您感兴趣的站点具有可查询的公共API以获取信息。我怀疑很多网站都有这个。
因此,第二个选项将是两个替换站点,以获取您感兴趣的信息。如果选择此选项,请注意,每次您刮擦的站点都会更改HTML结构ID,类等。您的刮擦功能可能需要进行维护。
因此,通过选择此选项,请注意需要不断维护抓取程序!
这里有一个链接,解释什么是刮削以及如何完成刮削:https://www.youtube.com/watch?v=vsmxMLmroyQ
这不是特定于Java的,但是您可以将其映射到Java。