我正在对与房屋有关的数据进行线性回归分析。现在我有23个功能。其中一些是明显的序数(例如年份,房间数量,层数)。一些功能是绝对的,我很困惑如何在编码为数字格式时对待它们。我对使用什么编码方法犹豫不决:单热编码(用于分类)或只是序数映射(用于序数据)。 我知道明确必须使用虚拟编码对颜色,性别,地区,国籍等明确特征进行编码。此外,很明显,可以订购具有可能的' old',     ' new' 的可能值的类别的分类功能并分别编码为 1,2,3 。
但我不确定如何编码不是很明显的功能。这个功能'自然界不会立即引人注意,并且在某种程度上可以同时归因于序数据和分类数据。让我们看看这个例子:
Strongly Agree
Agree
Undecided
Disagree
Strongly Disagree
作者决定对它们进行编码。有人建议使用虚拟编码。不清楚。
另一个例子(材料):
Plastic
Wood
Metal
Armored
从我的角度来看,这些数据可以按顺序排序和编码为1,2,3,4。 Simply Armored比Metal更贵。金属比木材贵,等等。但是我在youtube上看过一个讲座,据说你不会仅仅因为你看到一些上升或下降的模式来编码特征。这些模式可能是幻想和虚假。
另一个例子(互联网连接类型):
DSL
ADSL
SDSL
Cable
Broadband
其中一些比较快,有些比其他慢,但没有"明确的顺序"。怎么处理这样的'不清楚'分类数据。
如何区分分类和有序数据?或者我只需要编码通常只有非常简单的序数变量,例如' condition'并将其余不清楚的变量保留为分类和虚拟代码。
答案 0 :(得分:3)
我会说顺序变量是你可以订购的东西,你的价值集之外的答案仍然有意义。好的例子是“同意”#39; /'不同意'。你可以将它们映射到值1-5,即使你得到2.3,你也知道它意味着什么:它有点超过“同意”。但是塑料'木材'完全没有意义。 - 这是绝对的。 关于互联网连接类型。这取决于。如果我们谈论速度而你可以订购这些连接,那么将它视为序数可能是有意义的。但如果我们谈论的是调制解调器类型的受欢迎程度,它只是一个分类变量