我有语音数据集,所以这里是它现在的编码方式:
library(data.table)
setDT(my_df)[, repeat_class := .GRP * (.N > 1), by = names(my_df)]
my_df
# mat1 mat2 mat3 mat4 repeat_class
#1: 1 5 4 1 1
#2: 2 4 1 2 2
#3: 2 3 6 6 0
#4: 2 1 9 9 0
#5: 1 5 4 1 1
#6: 2 4 1 2 2
#7: 2 4 1 2 2
0为好3是严重偏离正常语音。
Hypernasality (0-3)
Speech understandibility (0-3)
Speech Acceptability (0-3)
其中0表示无,1表示是
我用这种方式记录了我的数据:
Hypnasality (0 and 1)
Audible Air Emission (0 and 1)
然而,当我运行我的回归时,它给了我反直觉的结果。 我的因变量是语音结果,感兴趣的β是裂隙严重程度。 重新编码后的结果会说“裂隙严重程度会改善言语,但是裂隙手术可以减少它”
如果我按照编码的方式离开它,那么上面提到的所有5个结果都有不同的结果。
我需要他们向一个方向前进,这样我才能构建一个摘要索引。
答案 0 :(得分:0)
这可能是原始数据问题。我会确保所有数据点都输入正确,因为在数据输入的某个阶段,0-3的输入可能已经混淆了。因此,在数据输入过程中可能会出现混乱。
其次,如果你真的确定数据输入(这听起来像是一个数据输入问题,或者像Nick Cox所说,数据解释问题),那么也许尝试使用“gen”和“replace”命令在循环内部或外部重新编码变量。
当我遇到循环命令问题时,我会分析每个部分和原始代码。