我正在使用apache manifoldcf开源项目将Google Drive中的文档索引到我的solr中。我经常看到它在索引数据时非常不一致。此外,在solr中反映甚至少量文档也需要时间。您真的认为使用它对Google云端硬盘进行索引是一个不错的选择吗?
答案 0 :(得分:0)
由于谷歌驱动器本身的响应时间和限制限制,它目前有点慢。但是,如果您从谷歌购买额外的带宽,这个限制可能会减轻。使用当前设置,如果您要在Google驱动器中索引大量文档,可能不会像您预期的那样快速
答案 1 :(得分:0)
Manifold CF非常适合通过文件系统进行爬网。如果您对网络抓取感兴趣,可以选择 Apache Nutch 。
是的ManifoldCF确实花费大量时间来反映少量文档。此外,它的文档也很少。虽然,您可以加入邮件列表,在其中可以向主要开发人员“ Karl”提出问题。他非常乐于助人,通常需要几个小时才能回答。
P.S。 :我在一个项目中使用ManifoldCF已有10个月的时间。