我是否应该使用来自训练,验证和测试语料库的数据来训练嵌入?

时间:2019-08-21 07:14:06

标签: nlp word-embedding

在这种情况下,我没有为我的域名嵌入任何经过预先训练的单词(越南美食评论)。因此我从通用和特定语料库中获得了嵌入的机会。

这里的重点是,我可以使用训练,测试和验证(经过预处理)的数据集作为创建自己的单词嵌入的来源。如果没有,希望您能提供经验。

根据我的直觉,以及一些实验,广泛的语料库似乎更好,但是我想知道是否有相关的研究或其他相关的结果。

1 个答案:

答案 0 :(得分:0)

  

我可以使用训练,测试和验证的数据集吗?   预处理)作为创建我自己的单词嵌入的来源

当然,对于您的机器学习模型而言,嵌入不是您的功能。它们是数据的“计算表示”。简而言之,它们由向量空间中表示的单词组成。有了嵌入,您的数据就更少了。使用词嵌入可以视为NLP预处理步骤的一部分。

通常(我的意思是,使用最常用的技术word2vec),矢量空间中单词的表示形式由其周围环境(通常伴随的单词)定义。

因此,创建嵌入的语料库越大越好,因为它可以更好地将单词向量放置在向量空间中(并与其他相似的单词进行比较)。