在文档分类域中说,如果我有1000个实例的数据集,但实例(文档)的内容较小;我有另外一个说200个实例的数据集,但是每个单独的实例都有更丰富的内容。如果IDF不在我的关注范围内,那么实例的数量在培训中是否真的重要?分类算法是否考虑到了这一点?
感谢。 SAM
答案 0 :(得分:1)
您可以将此视为一般机器学习问题。最简单的问题可以帮助您了解训练数据的大小如何重要。
分类器或拟合模型的不确定性和偏差是样本大小的函数。小样本量是一个众所周知的问题,我们经常试图通过收集更多的训练样本来避免这个问题。这是因为非线性分类器的不确定性估计是通过模型的线性近似来估计的。只有当大量样本可用作the central limit theorem的主要条件时,此估计才是准确的。
在决定训练样本量时,异常值的比例也是您应该考虑的重要因素。如果样本量越大意味着异常值的比例越大,则应限制样本量。
文档大小实际上是特征空间大小的间接指示符。例如,如果您从每个文档中获得了10个特征,那么您将尝试在10维空间中对文档进行分类/分类。如果每个文档中有100个特征,那么在100维空间中也会发生相同的特征。我想你很容易看到将更高维度的文档分开的绘图线更容易。
对于文档大小和样本大小,经验法则尽可能高,但实际上这是不可能的。例如,如果您估计分类器的不确定性函数,那么您会发现样本量大于该值的阈值导致几乎没有减少不确定性和偏差。根据经验,您也可以通过蒙特卡罗模拟找到某些问题的阈值。
大多数工程师都不愿意估计不确定性,这往往导致他们实施的方法的次优行为。这对玩具问题很好,但在实际问题中,考虑到估计和计算的不确定性对于大多数系统来说至关重要。我希望在某种程度上回答你的问题。