使用spaCy更好地命名实体识别和相似性

时间:2018-09-24 06:21:56

标签: python nlp spacy named-entity-recognition

我一直在尝试spaCy进行一个小型附带项目,并且有一些问题和疑虑。

我注意到spaCy的命名实体识别结果(具有最大的en_vectors_web_lg模型)似乎不如Google Cloud Natural Language API [1]准确。 Google的API能够更准确地提取更多实体,这很可能是因为它们的模型更大。因此,是否有可能使用其他模型或通过其他方法来改善spaCy的NER结果?

第二,Google的API还返回相关实体的Wikipedia文章链接。 spaCy还是有可能做到这一点,还是在spaCy的NER结果之上使用其他技术?

第三,我注意到spaCy具有使用GloVe词向量的similarity()方法[2]。但是,作为新手,我不确定在一组文档(例如5000-10000个文本文档,每个文档少于500个字符)之间频繁执行相似性比较以生成相似文档桶的最佳方法是什么?

希望有人提出任何建议或提示。

非常感谢!


[1] https://cloud.google.com/natural-language/

[2] https://spacy.io/usage/vectors-similarity

1 个答案:

答案 0 :(得分:1)

...那么有什么方法可以改善spaCy的NER?

  

可以训练spaCy的模型来改善其NER。您可以使用GoldParse对象对其进行训练。 https://spacy.io/usage/training

第二,Google的API还返回相关实体的Wikipedia文章链接。 spaCy还是有可能做到这一点,还是在spaCy的NER结果之上使用其他技术?

  

我还没有看到有人使用spaCy尝试此功能。

第三,我注意到spaCy有一个使用GloVe单词向量的相似性方法[2] ...

  

我认为这是一个聚类问题,仅使用spaCy相似性无法解决。对于群集,我强烈建议您通过以下链接。 http://brandonrose.org/clustering