Word2Vec:在NLP中训练体重是否可行?

时间:2017-04-02 07:25:25

标签: nlp gensim word2vec

我使用Gensim的{​​{1}}来训练大多数相似的单词。

我的数据集是我大学社区网站的所有帖子。

每个数据集都包含如下:

Word2Vec

例如,

(title) + (contents) + (all comments)  // String

所以,我有大约400,000个数据,如上所述,并将它们作为向量,并尝试通过data[0] => "This is title. Contents is funny. What so funny?. Not funny for me" 训练这些数据。

我想知道是否可以让Word2Vec考虑加权,这意味着,如果我对某些数据向量赋予权重,Word2Vec以这种数据中的每个单词的方式训练这些数据矢量具有更强的关系(相似性)。

例如,如果我向数据集Word2Vec提供权重5,则I like Pizza, ChickenPizza(或Chickenlike等)与其他数据载体相关的强关系。

这可能吗?

对不起解释不好,但我不是母语为英语的人。如果需要更详细的信息,请发表评论。

1 个答案:

答案 0 :(得分:1)

在word2vec算法或gensim实现的定义中没有这样的可配置权重。

您可以尝试重复那些希望产生更大影响力的文字示例。 (理想情况下,这样的重复不会背靠背,而是在整个数据集中混乱。)

因此,与较少重复的例子相比,这些例子将更频繁地影响基础模型的训练,占总训练时间的更大比例 - 改变所涉及词语的相对位置。 可能会拥有您正在寻找的最终结果。