我需要通过数值对单个数据集进行分类。我在数据集中添加了以下样本来解释我的需求。
限制:类别有两个值:0
或1
问题是“通过T
得分对新记录进行分类的最佳T
得分是什么。
示例数据:
-------------------------------
App Category T score
-------------------------------
X 1 180
Y 1 75
Z 0 220
A 0 120
B 1 180
答案 0 :(得分:0)
分类器的形式有限制吗? IE浏览器。它应该只是一个阈值还是一个任意的分类器?
您只需检查阈值的所有可能值。在一维案例中,它是一种廉价的方法,可以保证良好的结果(当您实际搜索整个假设空间时)。
即使对于1D案例,也没有明确的答案。虽然,对于这样简单的数据,最好的选择是...绘制您的数据。使用直方图或核密度估计和参见它的外观。您很有可能手动找出确切的规则。否则,几乎任何分类器都应该足够好。具有RBF内核的SVM应该与基于简单密度的方法/ KNN一样好。