我不知道这是否是一个好问题。
在这种情况下,我有一个比例/连续因变量和一堆自变量。我的最终目标是建立一个使用这些自变量来预测/估计因变量的模型。我相信这是常见的设置。
重点是我知道所有变量的物理含义,但是我不知道它们的详细关系(甚至不相关)。我想更多地从分析/解释的角度构建模型,以便可以从模型中获得一些真实的见解,而不是黑盒子。
我的方法是尝试使用CHAID类型的算法来构建模型的决策树类型。在每个分支,我都希望对每个自变量进行统计测试,以查看其与因变量之间是否存在关系。然后,根据测试结果,我想选择功能最强大的一棵树。
问题是,与CHAID算法不同的是,大多数变量是分类的,在我的情况下,因变量是小数位数,自变量是分类的或小数位数,这意味着我可能需要对不同的变量进行不同的统计检验,例如t检验和ANOVA进行分类,连续回归进行回归。我想知道如何比较这些结果以选择最强大的结果? (例如CHAID中的更正步骤)
我计划中任何部分的任何想法对我都很重要!谢谢!