我需要创建一个搜索引擎,通过网站列表进行搜索并在那里搜索查询,这些网站都返回各种格式和结构的数据,我需要收集特定信息(以独特的结构)所有这些网站。
我可以通过Google自定义搜索引擎等现有引擎实现这一目标吗?或者我是否更好地创造了自己的一个?如果是,那么我应该采取的第一步是如何有效地索引和搜索这些网站,而不会使用无用的垃圾填满我的服务器。
总而言之,除了在每个网站上搜索查询之外'搜索框,我需要适当地处理每个结果,并将它完全放在一个联合结构中。所有结果都要解析并提取到4-6个字段中(当然,除非Google CSE有这种方法。
答案 0 :(得分:1)
Google CSE为标准Google网络搜索提供了一些界面。您可以控制用户界面和搜索参数,但无法控制索引,也无法直接访问索引数据。
您可能对GAE提供的Google搜索API更感兴趣。它们是完全不同的:它们是您提供数据和控制索引的搜索服务。
答案 1 :(得分:1)
在这里,2018年12月,我们使用Google CSE,可以定义一组网站,从中可以处理我们的请求。 google CSE提供多达2000个网站资源,包括和总共多达5000个资源。
一个简单的比较:
Google CSE提供了强大的API,自定义请求,没有任何内容可在您的服务器上运行,但相比之下,每天仅允许100个请求免费使用。
开发新的SE可能对少量网站有用,并且可以为业务需求提供定制的SE,但它需要:时间,基础设施,资金投入,SE算法的开发:索引编制,存储和分析。
总结一下。这取决于您真正需要哪一面。