我正在尝试注释语料库中的词汇。
我已经在语料库上训练了word2vec模型
我将基于分数作为关键字的相关单词分组为第一个单词作为关键字,其余单词作为单词的两元组和相对于分数的得分的列表
示例: '咖啡'---钥匙 值是
[('tea', 0.8139282),
('latte', 0.76456803),
('coffe', 0.7607962),
('lattes', 0.756057),
('starbucks', 0.7158153),
('espresso', 0.71386236),
('mocha', 0.69999266),
('coffees', 0.6816252),
('frappucino', 0.67192864),
('cuppa', 0.66720986),
('cappucino', 0.6664002),
('chai', 0.6623157),
('decaf', 0.65980726),
('frappuccino', 0.65150374),
('venti', 0.6486204),
('expresso', 0.6369579),
('macchiato', 0.6280453),
('scone', 0.62476856),
('sippy', 0.6236704),
('cappuccino', 0.61718297),
('iced', 0.6130485),
('hazelnut', 0.6023698),
('mug', 0.6004759),
'
'
'
'
'
据我所知,根据以上数据,咖啡与拿铁,绿茶,浓缩咖啡,星巴克有关。 我想将每个单词标记如下
拿铁[COHYPO]绿茶[COHYPO]浓咖啡[HYPO]星巴克[相关] tim_horton [相关]
COHYPO-https://en.wiktionary.org/wiki/cohyponym
[HYPO]-https://en.wiktionary.org/wiki/hyponyme
[相关]-单词重复
[MORPHO]-形态学变体(例如:计算机和计算机)
[Partof]-表示带注释的单词是感兴趣单词的一部分
我可以用来解决此问题的任何建议或想法