我正在使用逻辑回归关注模型构建教程。 在本教程中,使用as.factor函数将具有数字数据类型和级别3的列转换为因子。我想知道这次转换的原因。
答案 0 :(得分:3)
如果类的矢量 - "数字"在该形式中保留少量唯一值,逻辑回归即Collectors.toMap
将返回单个系数。通常,这不是数据支持的内容,因此该教程的作者建议将这些向量转换为因子,以便通过glm函数对分类值进行默认处理。这些作者可能已经知道基础数据收集过程已经用数字级别编码分类数据并且数据输入过程没有被告知&#34;处理为分类。对于使用Map<String, Member> mapByTeams =
listOfMembers.stream().collect(Collectors.toMap(Member::getTeam, Function.identity()));
函数的任何glm( form, family="binomial", ...)
参数,可以使用colClasses
参数完成。
大多数R回归例程对因子的默认处理使用第一级作为基线read.*
估计的一部分,并估计每个其他级别的系数。如果您将该向量保留为数字,则可能会得到一个可能被解释为有序变量效果斜率的估计值。与序数关系的这种编码相关联的统计测试通常被称为趋势的线性测试&#34;并且当“现实世界”中的数据情况时,它有时是一个有用的结果。可以解释为序数关系。