我的问题是我有一个大的未标记数据集,但随着时间的推移,我希望它被标记并构建一个自信的分类器。
这可以通过主动学习来完成,但是主动学习需要为其构建初始分类器,然后根据它们对分类器的预期信息来估计和排列剩余的未标记实例。
要构建初始分类器,我需要手动标记一些示例。我的问题是:在没有初始分类器的帮助下,是否有方法可以在初始未标记的数据集中找到可能的信息性示例?
我想过只使用带有一些簇的k-means,运行它并从每个簇中标记一个例子,然后在这些上训练分类器。 还有更好的方法吗?
答案 0 :(得分:0)
没有。如果您没有任何标记的数据,则无法确定哪些点信息量最大。 k-means也不一定有帮助,因为你不知道决策面的位置。
你正在过度思考这个问题。只需随机抽样一些数据并标记。一旦你标记了几十万个点,你就可以开始查看标记数据,然后决定下一步该去哪里。
答案 1 :(得分:0)
我不同意爱德华拉夫。
k-means可能在这里变得有用(如果你的数据是连续的)。
只需使用相当大的k值。
我们的想法是避免选择太相似的对象,但要获得一个合理地覆盖数据的样本。 k-means可能无法“聚类”复杂数据,但它对量化的效果相当好。因此,它将从您的数据中返回“更少随机,更具代表性”的样本。
但要注意: k-means中心与数据点不对应。您可以使用基于medoid的算法,也可以只为每个中心找到关闭实例。
一些替代方案: