机器学习-分类或聚类

时间:2019-02-04 21:53:55

标签: python machine-learning

我是机器学习的新手,有一个我想解决的问题,看看是否有人对最好使用哪种算法有任何想法。我不是在寻找代码,而是一个过程。

问题:我将人分为两类:高风险和低风险。 (这是一个非常基本的起点,我将在学习如何进行更详细的分类时进行扩展)

我每个人都有11个变量,每个变量都有一个二进制值(0表示否,1表示是)。这些变量就像已婚,gun_owner,home_owner等。因此,我收集到每个人可以拥有2 ^ 11或2048个这些变量的不同组合。

我有一个数据集,其中包含此信息,然后包含结果(无论他们是否犯罪)。我认为这些数据将用于训练,然后该算法可以对高风险个体进行预测。

有人对最佳算法有任何想法吗?由于变量太多,因此我很难确定可能的方法。

2 个答案:

答案 0 :(得分:0)

这是一个二进制分类问题,每个输入都有一个长度为11的二进制字符串。有很多算法可以解决此问题。最简单的一个是朴素贝叶斯模型(https://en.wikipedia.org/wiki/Naive_Bayes_classifier)。您还可以尝试一些线性分类器,例如逻辑回归或SVM。它们都适用于线性可分离数据和二进制分类。

答案 1 :(得分:0)

您似乎想根据一些功能对人进行分类。它看起来像一个简单的二进制分类问题。但是,不是很清楚您所拥有的数据是否带有标签。

第一个问题是,在您的数据集中,您知道哪个人是“高风险”而哪个人是“低风险”吗?如果您掌握了这些信息,则可以将大量机器学习模型用于此分类任务。

但是,如果标签不存在(“高风险”或“低风险”),则不能这样做。然后,您必须考虑一些无监督的学习方法(集群)。希望这能回答您的问题。