Question

如果我的文件有很多列，数据都是数字，我怎么知道特定列是分类数据还是定量数据？是否存在针对此类问题的研究领域？如果没有，可以使用哪些启发式方法来确定？

我能想到的一些启发式方法：

可能是分类数据

汇总唯一值，如果它是＆lt; some_threshold，分类数据的可能性更高。
如果数据高度集中（低标准）
如果唯一值是高度顺序的，并从1
如果列中的所有值都具有固定长度（可能是ID /日期）
如果Benford's Law
如果它在结果列的卡方检验中具有非常小的p值

可能是定量数据

如果列有浮点数
如果列具有稀疏值
如果列具有负值

其他

也许定量数据更可能接近/接近定量数据（反之亦然）

我正在使用R，但问题不需要是R特定的。

Answer 1

这假设某人正确编码了数据。

也许你建议数据没有被正确编码或标记，它都是以数字形式输入的，其中一些确实是绝对的。在那种情况下，我不知道如何确定。分类数据可以包含小数位数，也可以是负数。

在这种情况下我会问自己的问题是，我对待数据的方式有何不同？

如果您对第二种情况感兴趣，也许您应该在Stack Exchange上提出您的问题。

my.data <- read.table(text = '
    aa     bb      cc     dd
    10    100    1000      1
    20    200    2000      2
    30    300    3000      3
    40    400    4000      4
    50    500    5000      5
    60    600    6000      6
', header = TRUE, colClasses = c('numeric', 'character', 'numeric', 'character'))

my.data

# one way
str(my.data)

'data.frame':   6 obs. of  4 variables:
 $ aa: num  10 20 30 40 50 60
 $ bb: chr  "100" "200" "300" "400" ...
 $ cc: num  1000 2000 3000 4000 5000 6000
 $ dd: chr  "1" "2" "3" "4" ...

以下是记录信息的方法：

my.class <- rep('empty', ncol(my.data))

for(i in 1:ncol(my.data)) {
    my.class[i] <- class(my.data[,i])
}

> my.class
[1] "numeric"   "character" "numeric"   "character"

修改

以下是一种在不使用class的情况下为每列记录for-loop的方法：

my.class <- sapply(my.data, class)

如何确定列为定量或分类数据？

可能是分类数据

可能是定量数据

其他

1 个答案: