如何处理或转置用于R或SPSS的数据集

时间:2018-12-19 20:17:16

标签: r spss

我需要将原始数据(csv)调整为宽格式,以便可以在R或SPSS中进行分析。

它看起来像这样:

1,age,30 
1,race,black 
1,scale_total,35
2,age,20
2,race,white
2,scale_total,99

理想情况是:

ID,age,race,scale_total, etc
1, 30, black, 35 
2, 20, white, 99

我在原始数据(ID,问题,响应)的第一行中添加了值,并尝试了强制转换功能,但我相信这种聚合的数据不仅可以转换:

data_mod <- cast(raw.data2, ID~Question, value="Response")
Aggregation requires fun.aggregate: length used as default

3 个答案:

答案 0 :(得分:1)

我们需要创建一个序列列来处理重复的行,这些行默认情况下会聚合为length

library(data.table)
dcast(setDT(df1), ID + rowid(Question) ~ Question, value.var = 'Response')

注意:无需使用序列列,示例数据就可以正常工作(给出预期的输出)。

dcast(setDT(df1), ID ~ Question)
#   ID age   race scale_total
#1:  1 30  black           35
#2:  2  20  white          99

因此,将这种情况应用于具有重复行的完整数据集

数据

df1 <- structure(list(ID = c(1L, 1L, 1L, 2L, 2L, 2L), Question = c("age", 
"race", "scale_total", "age", "race", "scale_total"), Response = c("30", 
 "black ", "35", "20", "white", "99")), class = "data.frame", 
 row.names = c(NA, -6L))

答案 1 :(得分:1)

您可以使用tidyr ...

library(tidyr)
df<-read.csv(text="1,age,30 
    1,race,black 
    1,scale_total,35
    2,age,20
    2,race,white
    2,scale_total,99", header=FALSE, stringsAsFactors=FALSE)

df %>% spread(key=V2,value=V3)

  V1 age   race scale_total
1  1 30  black           35
2  2  20  white          99

答案 2 :(得分:0)

对于SPSS:

data list list/ID (f5) Question Response (2a20).
begin data
1 "age" "30" 
1 "race" "black" 
1 "scale_total" "35"
2 "age" "20"
2 "race" "white"
2 "scale_total" "99"
end data.

casestovars /id=id /index=question.

请注意,结果变量agescale_total将是字符串变量-您必须先将它们转换为数字,然后才能进行进一步的转换:

alter type age scale_total (f8).