ElasticSearch中的实体标记

时间:2017-08-22 14:26:28

标签: elasticsearch nlp

我想从Elastic标记特定实体。这支持吗? 例如对于文本:

Hello my name is Johnny

将其标记为令牌 Hello my name is johnny < person

后来突出那些实体? 有没有人知道这样的事情或插件或任何方向点会有所帮助。

2 个答案:

答案 0 :(得分:2)

Elasticsearch不进行命名实体识别。但是,您可以使用摄取处理器,类似于此https://github.com/spinscale/elasticsearch-ingest-opennlp(尽管您可能需要根据具体用例对其进行修改)。

但是,在索引文档之前,您可能最好不要进行命名实体识别。你可以试试openNLP或NLTK,或者如果它是一个非商业项目,斯坦福NER。我想你想添加&#34;突出显示&#34;在索引之前标记自己。我想到这样的事情:

<ne type="person">Johnny</ne> is from <ne type="place">New York</ne>

您可以使用自定义分析器丢弃要分析的标记,或者只是索引两个字段,一个没有标记。

答案 1 :(得分:1)

POS标记

如果您的意思是词性标注,Elasticsearch不支持它。

您应该自己动手,例如使用NLTK,然后索引标记的文档。

<强>突出显示

关于突出显示yes elasticsearch支持它,这里是文档:

Higlight