我有大量的自由文本医学叙述,现在将用于分类任务,目前大约有4200条记录。
首先,我希望使用w2v创建单词嵌入,但是对于此任务的火车测试拆分,我有一个疑问。
当我训练w2v模型时,是否适合将所有数据用于模型创建?还是应该仅使用火车数据来创建模型?
真的,我的问题归结为:我是否要提取整个数据集,创建w2v模型,使用该模型转换叙述,然后拆分,或者应该拆分,创建w2v,然后转换两组独立吗?
谢谢!
编辑
我在工作地点发现了一个内部项目,该项目是由供应商建立的;他们创建分割,仅在火车数据上创建w2v模型,然后分别在不同的工作中转换两个集合。所以这是我上面指定的两个选项中的后者。我想就是这样,因为我不想在任何测试数据上污染w2v模型。
答案 0 :(得分:1)
在NLP中,对大多数此类问题的答案是“都尝试” :-)
测试数据和火车数据的污染无关紧要,或者在生成单词向量时存在问题。这是与向量一起使用的模型中的一个相关问题。我发现用例中的整体语料库向量的性能更好。
单词向量的质量随着更多数据的提高而提高。如果您不使用测试语料库,则将需要一种方法来初始化词汇外向量,并了解它们可能对模型性能的影响。