Elasticsearch架构适用于同一文本的多个版本

时间:2015-06-08 20:44:47

标签: elasticsearch schema

我正在开发一个从各种新闻网站下载文章并对文本执行各种NLP分析的系统。我想存储每篇文章的多个版本和方面,包括

  • 原始HTML
  • 清理纯文字版本
  • CoreNLP文章的输出。

    由于我想在Elasticsearch上存储纯文本版本,我还考虑将其他所有内容存储在Elasticsearch上。我没有Elasticsearch的经验,所以我无法告诉他们存储这些内容的更好方法:

    1. 每篇文章都有一条记录,HTML,文本和CoreNLP输出作为该文章的属性:{html: '....', text: '....', CoreNLP: '....'}
    2. 将每种类型的信息存储在自己的类型中:/articles/html/1/articles/text/1/articles/corenlp/1等......
    3. 哪一个更常见?还有第三种更好的选择吗?

1 个答案:

答案 0 :(得分:0)

取决于您想要在哪里进行COreNLP,html整理等等。如果您想在弹性中执行此操作,我会使用多字段类型:

https://www.elastic.co/guide/en/elasticsearch/reference/0.90/mapping-multi-field-type.html

如果你是在弹性之外做的,这不常见,因为这对弹性来说是一个很好的任务,你可以使用多场方法。