我很少有同时包含字母和数字的列。 我关心的是如何治疗它们,值得使用还是宁愿丢弃它们? 此外,如果它们包含有用的信息,我应该如何处理? 各个变量是:x.14,x.2,x.10。 数据框为:
$ X : int 0 1 2 3 4 5 6 7 8 9 ...
$ x.0 : chr "b" "a" "a" "b" ...
$ x.1 : chr "30,83" "58,67" "24,5" "27,83" ...
$ x.2 : chr "f" "4.46" "0.5" "1.54" ...
$ x.3 : chr "u" "u" "u" "u" ...
$ x.4 : chr "g" "g" "g" "g" ...
$ x.5 : chr "w" "q" "q" "w" ...
$ x.6 : chr "v" "h" "h" "v" ...
$ x.7 : chr "1.25" "3.04" "1.5" "3.75" ..
$ x.8 : chr "t" "t" "t" "t" ...
$ x.9 : chr "t" "t" "f" "t" ...
$ x.10: chr "t" "6" "f" "5" ...
$ x.11: chr "f" "f" "f" "t" ...
$ x.12: chr "g" "g" "g" "g" ...
$ x.13: chr "202.0" "43.0" "280.0" "100.0" ...
$ x.14: chr "f" "560" "824" "3" ...
$ x.20: chr "t" "t" "t" "t" ...
$ x.17: chr "116,94256980957068" "225,60625307204938" "92,08407670672422" "104,16291777029285" ...
$ x.18: chr "0,5787085579422866" "25,409645364400404" "2,3173371593153314" "8,04533772976642" ...
$ x.19: chr "202000.0" "43000.0" "280000.0" "100000.0" ...
$ x.16: chr "f" "f" "f" "f" ...
$ y : chr "good" "good" "good" "good" ...`
谢谢您的帮助!
答案 0 :(得分:0)
看起来不同的列以不同的方式转换了,它们需要重新转换。
一些列(x.9,x.11)表明,“ t”和“ f”是TRUE和FALSE的缩写。它们可以转换为1和0,也可以原样保留。
x.14,x.2中的'f'似乎是NA或0,以奇怪的方式转换。如果是这样,您可以将'f'更改为NA(或0)并将列转换为数值。否则,应将它们视为因素,如果数字不重复,这不是一个好主意。
x.1,x.17,x.18似乎是以逗号为小数点的数字。最好将“,”更改为“。”,然后将其转换为数字。
对于x.10,存在数字'f'和't'的情况不是那么明显,但是,数字的整数性质可能表明'f'和't'分别为0和1 ,特别是如果该列中不存在这些数字。否则,将'f'和't'转换为NA可能更安全。