应用错误收集

机器学习-分类或聚类

时间：2019-02-04 21:53:55

标签： python machine-learning

我是机器学习的新手，有一个我想解决的问题，看看是否有人对最好使用哪种算法有任何想法。我不是在寻找代码，而是一个过程。

问题：我将人分为两类：高风险和低风险。（这是一个非常基本的起点，我将在学习如何进行更详细的分类时进行扩展）

我每个人都有11个变量，每个变量都有一个二进制值（0表示否，1表示是）。这些变量就像已婚，gun_owner，home_owner等。因此，我收集到每个人可以拥有2 ^ 11或2048个这些变量的不同组合。

我有一个数据集，其中包含此信息，然后包含结果（无论他们是否犯罪）。我认为这些数据将用于训练，然后该算法可以对高风险个体进行预测。

有人对最佳算法有任何想法吗？由于变量太多，因此我很难确定可能的方法。

2 个答案:

答案 0 :(得分：0)

这是一个二进制分类问题，每个输入都有一个长度为11的二进制字符串。有很多算法可以解决此问题。最简单的一个是朴素贝叶斯模型（https://en.wikipedia.org/wiki/Naive_Bayes_classifier）。您还可以尝试一些线性分类器，例如逻辑回归或SVM。它们都适用于线性可分离数据和二进制分类。

答案 1 :(得分：0)

您似乎想根据一些功能对人进行分类。它看起来像一个简单的二进制分类问题。但是，不是很清楚您所拥有的数据是否带有标签。

第一个问题是，在您的数据集中，您知道哪个人是“高风险”而哪个人是“低风险”吗？如果您掌握了这些信息，则可以将大量机器学习模型用于此分类任务。

但是，如果标签不存在（“高风险”或“低风险”），则不能这样做。然后，您必须考虑一些无监督的学习方法（集群）。希望这能回答您的问题。