如何在未标记的数据集中查找最有希望在构建分类器时提供信息的实例?

时间:2015-07-06 17:30:37

标签: machine-learning dataset data-mining text-mining

我的问题是我有一个大的未标记数据集,但随着时间的推移,我希望它被标记并构建一个自信的分类器。

这可以通过主动学习来完成,但是主动学习需要为其构建初始分类器,然后根据它们对分类器的预期信息来估计和排列剩余的未标记实例。

要构建初始分类器,我需要手动标记一些示例。我的问题是:在没有初始分类器的帮助下,是否有方法可以在初始未标记的数据集中找到可能的信息性示例?

我想过只使用带有一些簇的k-means,运行它并从每个簇中标记一个例子,然后在这些上训练分类器。 还有更好的方法吗?

2 个答案:

答案 0 :(得分:0)

没有。如果您没有任何标记的数据,则无法确定哪些点信息量最大。 k-means也不一定有帮助,因为你不知道决策面的位置。

你正在过度思考这个问题。只需随机抽样一些数据并标记。一旦你标记了几十万个点,你就可以开始查看标记数据,然后决定下一步该去哪里。

答案 1 :(得分:0)

我不同意爱德华拉夫。

k-means可能在这里变得有用(如果你的数据是连续的)。

只需使用相当大的k值。

我们的想法是避免选择太相似的对象,但要获得一个合理地覆盖数据的样本。 k-means可能无法“聚类”复杂数据,但它对量化的效果相当好。因此,它将从您的数据中返回“更少随机,更具代表性”的样本。

但要注意: k-means中心与数据点不对应。您可以使用基于medoid的算法,也可以只为每个中心找到关闭实例。

一些替代方案:

  • 如果你有能力标记“a”对象,可以用k = a
  • 运行k-means
  • 以k = 5 * a运行k-means,并选择20%的中心(可能更喜欢密度最高的那些)
  • 通过k-means选择0.5 * a,随机选择0.5 * a
  • 执行其中任一操作,但只选择0.5 *个要标记的对象。训练分类器,找到0.5 *一个未标记的对象,分类器对
  • 的置信度最低