给出一个具有各种值和长度的表,为列分析创建数据框的最佳方法是什么?
示例,给出了一个无标签的CSV,如下所示:
A,B,A,C
A,B,C,D,E,F
B,C,A,B,F,F,F
A,B
B,C,D
A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,Y,X,Z,AA,AB,AC
目标是根据每个字母的最终位置为每个字母分配一个值。
鉴于变量以及行的未知长度,我应该如何解决此问题?设置一个包含大量列的数据框作为占位符?
答案 0 :(得分:1)
一种选择是使用readLines()
-
x <- readLines("test.csv") # add appropriate path to the file
x
[1] "A,B,A,C" "A,B,C,D,E,F"
[3] "B,C,A,B,F,F,F" "A,B"
[5] "B,C,D" "A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,Y,X,Z,AA,AB,AC"
现在,您可以根据需要操纵此向量的每个元素,然后将结果组合到所需的结构中。这样,您就不必“设置一个具有大量列的数据框作为占位符” 。