假设我没有将标签分配给实例,而是将实例中的确定性函数写入标签,
"如果实例A满足某些条件,则将其标记为0.否则,将其标记为1。"
然后,我对生成的实例和标签集进行ROC分析。
有人可以告诉我,我做了什么?我只是在测试我的函数作为分类器的判别能力吗?
我有点困惑,因为在这种情况下我是指定标签的人。我不是假设他们被给予并试图学习分类器本身。
答案 0 :(得分:1)
你所做的事情在机器学习中很常见。您将获得一个未知的stochatic进程f: IR^m -> IR^n
以及某些有趣的信息(由标签表示),这些信息是n
结果的函数,即g: IR^n -> {0,1}
。
现在您只对这些标签感兴趣,因此您不必担心预测原始过程f
- 因为它是多维值的,所以更难。相反,您只考虑组合过程
h: IR^m -> {0,1}, h = g o f
并尝试对此过程执行二进制分类。
在某种程度上,这是通过任何二进制分类数据集来完成的。人们总是可以构造 - 有时是人工 - 中间变量,然后将这些变量映射到二进制结果集(通过已知的映射,如在您的情况下或通过尚未推断的映射)。考虑例如多层神经网络:隐藏层可以被认为是那些中间变量。类似地,对于主成分回归,输入变量首先进行线性变换 - 即应用确定性映射 - 然后推断得到的,希望更容易的随机过程。
编辑:很大程度上取决于您申请的标签。如果它是从中间变量到{0,1}的“自然”映射,即直接对您要查找的数量进行分类并且由您的设置唯一指定的映射,请继续。但是,我的印象是您不能完全确定映射的质量。在这种情况下,我会避免通过您的映射和模型直接影响机器学习方法所需的数量...也许您可以提供有关您的设置的更多详细信息,然后我们可以继续这里。