使用Word2vec模型注释词汇

时间:2019-11-28 16:46:19

标签: nlp gensim word2vec

我正在尝试注释语料库中的词汇。

  1. 我已经在语料库上训练了word2vec模型

  2. 我将基于分数作为关键字的相关单词分组为第一个单词作为关键字,其余单词作为单词的两元组和相对于分数的得分的列表

示例: '咖啡'---钥匙 值是

[('tea', 0.8139282),
 ('latte', 0.76456803),
 ('coffe', 0.7607962),
 ('lattes', 0.756057),
 ('starbucks', 0.7158153),
 ('espresso', 0.71386236),
 ('mocha', 0.69999266),
 ('coffees', 0.6816252),
 ('frappucino', 0.67192864),
 ('cuppa', 0.66720986),
 ('cappucino', 0.6664002),
 ('chai', 0.6623157),
 ('decaf', 0.65980726),
 ('frappuccino', 0.65150374),
 ('venti', 0.6486204),
 ('expresso', 0.6369579),
 ('macchiato', 0.6280453),
 ('scone', 0.62476856),
 ('sippy', 0.6236704),
 ('cappuccino', 0.61718297),
 ('iced', 0.6130485),
 ('hazelnut', 0.6023698),
 ('mug', 0.6004759),
'
'
'
'
'

据我所知,根据以上数据,咖啡与拿铁,绿茶,浓缩咖啡,星巴克有关。 我想将每个单词标记如下

拿铁[COHYPO]绿茶[COHYPO]浓咖啡[HYPO]星巴克[相关] tim_horton [相关]

COHYPO-https://en.wiktionary.org/wiki/cohyponym

[HYPO]-https://en.wiktionary.org/wiki/hyponyme

[相关]-单词重复

[MORPHO]-形态学变体(例如:计算机和计算机)

[Partof]-表示带注释的单词是感兴趣单词的一部分

我可以用来解决此问题的任何建议或想法

0 个答案:

没有答案