我们正在尝试设计一个文档推荐系统,其中文档不断更新。实际上,文档是通常附加文本的流。
最初我们计划使用lucene + solr。但这对于大多数静态文档来说都是好的.lucene更新文档的方法是首先删除文档,然后重新编制索引。因此,如果文档经常更新,那么随着语料库大小和平均文档大小的增加,方法会导致索引速度变慢。
我们也很想建立我们自己的解决方案但是在原型设计之后放弃了,因为我们正在重新发明信息检索功能,这些功能已经在lucene中得到了很好的实现。有没有人通过集成开源搜索和机器学习工具来构建这种系统的经验。
答案 0 :(得分:0)
为了更新文档中任何字段的值而不重新索引整个文档,您可以使用DocValues。 您可以在以下博客http://shaierera.blogspot.com/2014/04/updatable-docvalues-under-hood.html
中阅读有关DocValues的信息