在这种情况下,我没有为我的域名嵌入任何经过预先训练的单词(越南美食评论)。因此我从通用和特定语料库中获得了嵌入的机会。
这里的重点是,我可以使用训练,测试和验证(经过预处理)的数据集作为创建自己的单词嵌入的来源。如果没有,希望您能提供经验。
根据我的直觉,以及一些实验,广泛的语料库似乎更好,但是我想知道是否有相关的研究或其他相关的结果。
答案 0 :(得分:0)
我可以使用训练,测试和验证的数据集吗? 预处理)作为创建我自己的单词嵌入的来源
当然,对于您的机器学习模型而言,嵌入不是您的功能。它们是数据的“计算表示”。简而言之,它们由向量空间中表示的单词组成。有了嵌入,您的数据就更少了。使用词嵌入可以视为NLP预处理步骤的一部分。
通常(我的意思是,使用最常用的技术word2vec),矢量空间中单词的表示形式由其周围环境(通常伴随的单词)定义。
因此,创建嵌入的语料库越大越好,因为它可以更好地将单词向量放置在向量空间中(并与其他相似的单词进行比较)。