用AWS Cloudsearch替换Google Site Search

时间:2017-03-02 20:31:22

标签: amazon-web-services search web-crawler

所以,我正在一个网站上工作,该网站具有非常具体的全球网站搜索功能,利用GSS,正如许多人所知,GSS将在4月份消失。我需要抓取网站并将XML发送到Cloudsearch,但我对如何解决这个问题感到困惑,并且在搜索后使用AWS Cloudsearch建立全球网站搜索时找不到很多材料互联网几天。到目前为止,我计划用Apache Nutch抓取网站,但我真的很感激一些输入。提前谢谢!

1 个答案:

答案 0 :(得分:2)

您是否遇到过我们的博客? Index the web with AWS CloudSearch Index the web with StormCrawler (revisited)。我描述了如何使用Nutch和StormCrawler索引到AWS Cloudsearch。

如果您需要托管搜索,我建议使用Elasticsearch和Elastic Cloud。我发现Cloudsearch缓慢,繁琐且昂贵,而且还有更多资源可用于StormCrawler和Apache Nutch的Elasticsearch。