应用错误收集

时间：2012-05-19 18:28:39

标签： machine-learning recommendation-engine classification

我不知道应该如何解决这个问题：

我有一个数据集。用户可能是也可能不是受资助计划的一部分。我想使用机器学习来推断出不属于该方案的用户容易受到某些条件的影响，例如： 1,2,3和4.计划中的人对1,2和4很敏感。因此可以推断，如果你是计划的一部分，你将不会受到条件3的影响。

我还有第二个相关问题。在资助计划内，用户可以有两个计划（成本不同）。我想看看那些更便宜的计划是否比更昂贵的计划更容易受到更多条件的影响。

任何人都可以帮助我，无论是推荐还是分类问题以及我应该查看哪些具体算法？

感谢。

答案 0 :(得分：1)

都不是。这是一个统计问题。您的数据集已经完成，并且您没有提及任何需要预测未来主题或方案的属性，因此培训分类器或推荐器似乎无法满足其通常的目标。

您可以使用人的条件作为要素及其方案统计数据作为目标，使用SVM对其进行分类，然后使用分类性能/准确度作为类的可分离性的度量。您还可以考虑群集。然而，t检验会做同样的事情，并且是一个更为公认的工具来证明这样的索赔的有效性。

答案 1 :(得分：0)

看起来您正在尝试构建一个系统，将用户归类为资助或未资助，如果没有资金，则说明他们没有资助的原因。

如果是这种情况，您需要的是可解释的机器学习分类器，即分类器做出某个决定的原因可以传达给用户。您可能希望查看Decisions树和（在较小程度上）RandomForest和Gradient Boosted Trees。