使用搜索引擎API替换我自己的抓取(非搜索引擎用途)?

时间:2013-09-12 13:16:41

标签: search yahoo-api bing-api google-search-api

目前,我正在抓取大量预定义网站,寻找极少数特定感兴趣的文档。重要的是,我没有抓取这些网站来创建我自己的搜索引擎:它专门用于检索文档。

所有主流搜索引擎都有一个我不介意付费的API,但他们似乎专注于使用他们的API来制作自己的搜索引擎。

例如:雅虎BOSS TOS http://info.yahoo.com/legal/us/yahoo/boss/tou/。 B.1(a)说“您被允许仅将服务用于合并和显示服务结果,作为部署在您的产品上的搜索产品的一部分”。所以我只能将它用于我自己的搜索引擎。

谷歌只有自定义搜索引擎的东西,这不再是我需要的东西。

Bing的API似乎更接近我的需要但是它的TOS要求不删除某些信息等等。但话又说回来,它并不要求我只用它来实现我自己的搜索引擎(从我的内容)可以看到。)

我是否在阅读过多内容,或者是否有搜索引擎允许我基本上使用他们抓取某些网站的结果而不是我自己的产品?同样,搜索结果本身不是我的产品:它是我对文档中的数据所做的。

感谢您的任何提示。

1 个答案:

答案 0 :(得分:0)

您不希望使用搜索引擎来执行此操作。

搜索引擎不会索引网站上的所有内容。例如,如果一个网站有很多类似的网页,它们就会被抛弃。具有大量页面的网站将不会完全编入索引。

你可能会以这种方式错过很多页面。

让它爬行!

<强> P.S。 抓取个别网站经常违反他们的服务条款。如果你关心这一点,也要注意遵守robots.txt。