我对机器学习很陌生,经验很少,我做了一些项目。
现在我有一个涉及保险的项目。所以我有关于客户端的数据库,我将合并以获取有关客户端的所有可能信息,并且我有一个数据库用于声明。我需要建立一个模型来确定客户基于排名的风险程度。
我的问题:我需要建立我的目标变量,根据客户的风险程度对客户进行排名,依靠索赔。我可以有不同的策略来做到这一点,但我对如何处理以下内容感到困惑: - 在构建诸如聚类之类的等级之前,我应该进行特定类型的分析,还是需要有一个与项目提供者愿景相匹配的强大理论假设。 - 如果我在声明数据库中使用一些变量来建立排名,我将如何处理它们。换句话说,我应该从最终的训练数据集中删除它们,以避免与目标变量的相关性,或者我可以用不同的方式对待它们并保留它们。 - 如果我保留它们,是否有特殊处理方式,取决于它们是分类变量还是连续变量。
答案 0 :(得分:1)
每个机器学习项目的起点都是EDA。首先创建一些功能,例如他们多久会得到不好的声明或者他们得到多少。然后做一些EDA以找出哪些功能更有用。其次,问题看起来像分类。聚类通常难以评估。
答案 1 :(得分:0)
在数据科学中,当您建立业务模型时,EDA探索性数据分析将扮演主要角色,其中包括数据清理,功能工程,过滤数据。如前所述,如何构建目标变量,这完全取决于您拥有的属性以及要应用的模型(例如线性回归或逻辑模型或决策树)。您需要使用那些算法。但最重要的是,您需要找出影响变量。这可能是输出和给定输入之间的核心关系,必须相应地指定优先级。另外,必须删除不增加任何值的属性,因为这会导致过度拟合。 您也可以进行群集。有趣的是,任何无监督的学习都可以转换为有监督的学习形式。可能您可以尝试进行逻辑回归或线性回归等。并找出哪种模型最适合您的项目。