vocab大小与word2vec中的向量大小

时间:2018-11-20 05:44:36

标签: word2vec word-embedding

我有一个包含6200个句子的数据(它们是形式为“ sign_or_symptoms诊断Pathologic_function”的三元组),但是这些句子中的唯一词(词汇)为181,在句子上训练模型的合适向量大小是多少这么低的词汇量。是否有任何资源或根据词汇量来研究合适的向量大小?

1 个答案:

答案 0 :(得分:1)

最佳实践是根据您的真实最终任务对其进行测试。

对于word2vec来说,这是一个难以置信的小语料库,而且词汇量也很小。它可能根本不合适,因为它可以从大量多样的培训集中获得功能。

但是从好的方面来说,您可以非常快速地使用不同的参数进行大量试验!

您绝对不能使用像词汇表一样大的矢量维数(181),甚至不能非常接近。在这种情况下,该模型肯定会“过拟合”-仅独立记住每个单词的效果,而无需进行必要的“拔河”权衡,从而迫使单词彼此接近/偏离。 ,从而创建word2vec模型的特殊值/一般性。

我非常宽松的经验法则是研究词汇量平方根周围的量纲。而且,4的倍数在底层数组例程中往往效果最好(至少在性能至关重要的情况下,而对于如此小的数据集可能不是这样)。因此,我会先尝试12或16个维度,然后根据对实际任务的定量质量评估来探索其他较低/较高的值。

但是,同样,您正在使用的数据集是如此之小,除非您的“句子”实际上很长,否则word2vec对于没有更多数据的人来说可能是一种非常弱的技术。