如何处理不在多类文本分类的训练集中的测试集标签?

时间:2019-06-22 07:24:07

标签: keras scikit-learn deep-learning nlp

我正在使用具有训练和测试集的多类文本分类数据集。训练集中大约有470个唯一标签,测试集中大约有250个唯一标签。 (这470+ 250个唯一标签来自大小为400万的大量标签。

大约30个标签仅在测试集中,而不在训练集中。

我是否需要将每个标签编码为一个大小为400万而不是450的热向量?,这样我也可以处理丢失的30个标签

1 个答案:

答案 0 :(得分:1)

无法,您的模型可以学习尚未看到的标签!理想地,在机器学习中,您假设训练集和测试集是从相同的基础分布中采样的。该模型只能学习您教它的内容,因此您需要确保对相似的数据进行训练和测试!

您可以尝试将两个集合合并在一起,然后将它们重新拆分为训练和测试集合,以使它们具有相同的班级数量。此外,请确保您有足够的数据。您的模型无法从曾经看过一两次的课程中学习。为了使模型学习500个班级,您应该有成千上万的样本!如果可能,请尝试将您的某些班级合并在一起。