我尝试使用谷歌的word2vec模型(https://code.google.com/archive/p/word2vec/ - https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=sharing)基于Python 3.6中的谷歌新闻。
我使用gensim包加载模型,特别是KeyedVectors
类(https://radimrehurek.com/gensim/models/keyedvectors.html)。之后,我使用similarity()
方法,但我对命名实体有一些问题。
例如,我会比较和衡量罗杰费德勒"和#34; Michael Jordan" (而不是" federer"与#34; jordan",因为我不想将单个命名实体标记化),并且对于许多命名实体我收到错误{{1} }。
是否有其他预训练的word2vec模型可用于测量命名实体之间的距离。