到目前为止,我偶然发现了许多有关PU学习和一元分类的建议和论文。
TLDR:有没有人对只有一个类的标记数据的半监督二进制分类方法和可以来自任何一类的未标记数据有什么建议?而且我不确定未标记数据中存在的A类到B类的比例是多少。
最简单的答案是一类SVM(Binary semi-supervised classification with positive only and unlabeled data set),但是我有很多未标记的例子,而我可以找到多少标记的例子。而且我不确定正类或负类是否足以进行异常检测。
其他一个建议的方法是两步过程,我可以找出一组可靠的负类数据,但我无法真正将一组数据识别为可靠的负数(https://www.cs.uic.edu/~liub/publications/ICDM-03.pdf)。
另一种方法建议加权SVM(http://users.csc.tntech.edu/~weberle/Spring2011/CSC6910/Papers/posonly.pdf),但我不确定我是否可以做出与作者相同的假设,因为我的正数据是所有正数据的随机子集,正如我使用的那样一个标准,以确定哪些是积极的,所以我认为标签数据存在偏差。
总的来说,我有很多正面的标记数据,也就是说我正在寻找的数据,但后来我有更多未标记的数据。 (虽然在某种程度上,标记数据也可以被认为是否定类的数据。)并且我不确定未标记数据中存在多少比例的正数据和负数据,因为两个类之间可能存在相等的分布。或者谁知道,也许正面课程的数据可能比负面课程的数据更少。