我使用Gensim
的{{1}}来训练大多数相似的单词。
我的数据集是我大学社区网站的所有帖子。
每个数据集都包含如下:
Word2Vec
例如,
(title) + (contents) + (all comments) // String
所以,我有大约400,000个数据,如上所述,并将它们作为向量,并尝试通过data[0] => "This is title. Contents is funny. What so funny?. Not funny for me"
训练这些数据。
我想知道是否可以让Word2Vec
考虑加权,这意味着,如果我对某些数据向量赋予权重,Word2Vec
以这种数据中的每个单词的方式训练这些数据矢量具有更强的关系(相似性)。
例如,如果我向数据集Word2Vec
提供权重5,则I like Pizza, Chicken
和Pizza
(或Chicken
和like
等)与其他数据载体相关的强关系。
这可能吗?
对不起解释不好,但我不是母语为英语的人。如果需要更详细的信息,请发表评论。
答案 0 :(得分:1)
在word2vec算法或gensim实现的定义中没有这样的可配置权重。
您可以尝试重复那些希望产生更大影响力的文字示例。 (理想情况下,这样的重复不会背靠背,而是在整个数据集中混乱。)
因此,与较少重复的例子相比,这些例子将更频繁地影响基础模型的训练,占总训练时间的更大比例 - 改变所涉及词语的相对位置。 可能会拥有您正在寻找的最终结果。