我正在开发一个从各种新闻网站下载文章并对文本执行各种NLP分析的系统。我想存储每篇文章的多个版本和方面,包括
CoreNLP文章的输出。
由于我想在Elasticsearch上存储纯文本版本,我还考虑将其他所有内容存储在Elasticsearch上。我没有Elasticsearch的经验,所以我无法告诉他们存储这些内容的更好方法:
{html: '....', text: '....', CoreNLP: '....'}
/articles/html/1
,/articles/text/1
,/articles/corenlp/1
等...... 哪一个更常见?还有第三种更好的选择吗?
答案 0 :(得分:0)
取决于您想要在哪里进行COreNLP,html整理等等。如果您想在弹性中执行此操作,我会使用多字段类型:
https://www.elastic.co/guide/en/elasticsearch/reference/0.90/mapping-multi-field-type.html
如果你是在弹性之外做的,这不常见,因为这对弹性来说是一个很好的任务,你可以使用多场方法。