应用错误收集

如何为监督机器学习项目建立目标变量

时间：2017-06-29 09:59:14

标签： machine-learning labels supervised-learning

我对机器学习很陌生，经验很少，我做了一些项目。

现在我有一个涉及保险的项目。所以我有关于客户端的数据库，我将合并以获取有关客户端的所有可能信息，并且我有一个数据库用于声明。我需要建立一个模型来确定客户基于排名的风险程度。

我的问题：我需要建立我的目标变量，根据客户的风险程度对客户进行排名，依靠索赔。我可以有不同的策略来做到这一点，但我对如何处理以下内容感到困惑： - 在构建诸如聚类之类的等级之前，我应该进行特定类型的分析，还是需要有一个与项目提供者愿景相匹配的强大理论假设。 - 如果我在声明数据库中使用一些变量来建立排名，我将如何处理它们。换句话说，我应该从最终的训练数据集中删除它们，以避免与目标变量的相关性，或者我可以用不同的方式对待它们并保留它们。 - 如果我保留它们，是否有特殊处理方式，取决于它们是分类变量还是连续变量。

2 个答案:

答案 0 :(得分：1)

每个机器学习项目的起点都是EDA。首先创建一些功能，例如他们多久会得到不好的声明或者他们得到多少。然后做一些EDA以找出哪些功能更有用。其次，问题看起来像分类。聚类通常难以评估。

答案 1 :(得分：0)

在数据科学中，当您建立业务模型时，EDA探索性数据分析将扮演主要角色，其中包括数据清理，功能工程，过滤数据。如前所述，如何构建目标变量，这完全取决于您拥有的属性以及要应用的模型（例如线性回归或逻辑模型或决策树）。您需要使用那些算法。但最重要的是，您需要找出影响变量。这可能是输出和给定输入之间的核心关系，必须相应地指定优先级。另外，必须删除不增加任何值的属性，因为这会导致过度拟合。您也可以进行群集。有趣的是，任何无监督的学习都可以转换为有监督的学习形式。可能您可以尝试进行逻辑回归或线性回归等。并找出哪种模型最适合您的项目。