如何避免在Solr中存储原始内容,只有索引版本?

时间:2014-01-29 02:48:37

标签: ruby-on-rails mongodb solr

我有很多关于30 TB的文档,这些文档还有与之相关的其他属性

  1. 不想在用Solr索引之后存储实际文档,因为它存储在其他地方,如果以后需要我可以访问它

  2. 其他数据属性也将使用solr编制索引,不会被删除。

  3. 我目前正在使用Ruby on rails开发并拥有mysql,但我想转移到 MongoDB的。上述情况是否可能?

    由于

    -Maged

2 个答案:

答案 0 :(得分:1)

您无需在Solr中存储原始内容。这是存储索引之间的区别。如果您将存储设置为false,则只会根据搜索需要保留已处理的标记化内容版本。只需确保存储您的ID。这是在 schema.xml 中的字段定义中设置的。

这确实意味着Solr无法将任何非存储字段返回给用户,因此您需要根据ID将它们与原始记录匹配(就像您似乎建议的那样)。

这也会破坏部分文档更新,因此您需要确保在更改内容时重新编制整个文档的索引。

答案 1 :(得分:0)

据我了解,您不想与您一起播放文档内容。一旦你将它编入索引并保留它。您想要经常索引的其他数据属性。如果您不关心空间,最好创建“内容”字段存储索引。选择令牌化器并巧妙地过滤内容,以便创建更少的令牌。

如需部分更新,请按http://solr.pl/en/2012/07/09/solr-4-0-partial-documents-update/