nlp - 我是否应该使用来自训练，验证和测试语料库的数据来训练嵌入？

时间：2019-08-21 07:14:06

标签： nlp word-embedding

在这种情况下，我没有为我的域名嵌入任何经过预先训练的单词（越南美食评论）。因此我从通用和特定语料库中获得了嵌入的机会。

这里的重点是，我可以使用训练，测试和验证（经过预处理）的数据集作为创建自己的单词嵌入的来源。如果没有，希望您能提供经验。

根据我的直觉，以及一些实验，广泛的语料库似乎更好，但是我想知道是否有相关的研究或其他相关的结果。

答案 0 :(得分：0)

我可以使用训练，测试和验证的数据集吗？预处理）作为创建我自己的单词嵌入的来源

当然，对于您的机器学习模型而言，嵌入不是您的功能。它们是数据的“计算表示”。简而言之，它们由向量空间中表示的单词组成。有了嵌入，您的数据就更少了。使用词嵌入可以视为NLP预处理步骤的一部分。

通常（我的意思是，使用最常用的技术word2vec），矢量空间中单词的表示形式由其周围环境（通常伴随的单词）定义。

因此，创建嵌入的语料库越大越好，因为它可以更好地将单词向量放置在向量空间中（并与其他相似的单词进行比较）。