Question

我正在尝试注释语料库中的词汇。

我已经在语料库上训练了word2vec模型
我将基于分数作为关键字的相关单词分组为第一个单词作为关键字，其余单词作为单词的两元组和相对于分数的得分的列表

示例： '咖啡'---钥匙值是

[('tea', 0.8139282),
 ('latte', 0.76456803),
 ('coffe', 0.7607962),
 ('lattes', 0.756057),
 ('starbucks', 0.7158153),
 ('espresso', 0.71386236),
 ('mocha', 0.69999266),
 ('coffees', 0.6816252),
 ('frappucino', 0.67192864),
 ('cuppa', 0.66720986),
 ('cappucino', 0.6664002),
 ('chai', 0.6623157),
 ('decaf', 0.65980726),
 ('frappuccino', 0.65150374),
 ('venti', 0.6486204),
 ('expresso', 0.6369579),
 ('macchiato', 0.6280453),
 ('scone', 0.62476856),
 ('sippy', 0.6236704),
 ('cappuccino', 0.61718297),
 ('iced', 0.6130485),
 ('hazelnut', 0.6023698),
 ('mug', 0.6004759),
'
'
'
'
'

据我所知，根据以上数据，咖啡与拿铁，绿茶，浓缩咖啡，星巴克有关。我想将每个单词标记如下

拿铁[COHYPO]绿茶[COHYPO]浓咖啡[HYPO]星巴克[相关] tim_horton [相关]

COHYPO-https://en.wiktionary.org/wiki/cohyponym

[HYPO]-https://en.wiktionary.org/wiki/hyponyme

[相关]-单词重复

[MORPHO]-形态学变体（例如：计算机和计算机）

[Partof]-表示带注释的单词是感兴趣单词的一部分

我可以用来解决此问题的任何建议或想法

使用Word2vec模型注释词汇

0 个答案: