在特定网站上创建搜索引擎并收集特定信息

时间:2014-04-06 23:22:30

标签: search indexing search-engine google-custom-search

我需要创建一个搜索引擎,通过网站列表进行搜索并在那里搜索查询,这些网站都返回各种格式和结构的数据,我需要收集特定信息(以独特的结构)所有这些网站。

我可以通过Google自定义搜索引擎等现有引擎实现这一目标吗?或者我是否更好地创造了自己的一个?如果是,那么我应该采取的第一步是如何有效地索引和搜索这些网站,而不会使用无用的垃圾填满我的服务器。

总而言之,除了在每个网站上搜索查询之外'搜索框,我需要适当地处理每个结果,并将它完全放在一个联合结构中。所有结果都要解析并提取到4-6个字段中(当然,除非Google CSE有这种方法。

2 个答案:

答案 0 :(得分:1)

Google CSE为标准Google网络搜索提供了一些界面。您可以控制用户界面和搜索参数,但无法控制索引,也无法直接访问索引数据。

您可能对GAE提供的Google搜索API更感兴趣。它们是完全不同的:它们是您提供数据和控制索引的搜索服务。

答案 1 :(得分:1)

在这里,2018年12月,我们使用Google CSE,可以定义一组网站,从中可以处理我们的请求。 google CSE提供多达2000个网站资源,包括和总共多达5000个资源。

一个简单的比较:

  • Google CSE提供了强大的API,自定义请求,没有任何内容可在您的服务器上运行,但相比之下,每天仅允许100个请求免费使用。

  • 开发新的SE可能对少量网站有用,并且可以为业务需求提供定制的SE,但它需要:时间,基础设施,资金投入,SE算法的开发:索引编制,存储和分析。

总结一下。这取决于您真正需要哪一面。