如何使用R by循环提取两列数据

时间:2015-06-02 00:23:45

标签: r loops dataframe multiple-columns

我有一个包含1000列数据的数据框

 str(MT)
 'data.frame':  1356 obs. of  1000 variables:
 $ Date : Factor w/ 1356 levels "Apr-1900","Apr-1901",..: 453 340 792 1 905  679 566 114 1244 1131 ...
 $ Year : int  1900 1900 1900 1900 1900 1900 1900 1900 1900 1900 ...
 $ X1   : num  -27.4 -27.8 -17 1.7 7.9 ...
 $ X2   : num  -27.21 -27.99 -17.05 1.69 7.75 ...
 $ X3   : num  -26.67 -27.84 -16.75 2.24 7.82 ...
 $ X4   : num  -26.64 -27.98 -16.83 2.46 7.97 ...
  .....
 $ X1000  : num  -29.13 -30.61 -20.47 -0.46 6.5

我想使用循环将这个数据框分成三列(Date,Year和Xn),这样我就可以拥有1000个单独的csv文件和3列数据。到目前为止,我的代码是

for (i in ncol(MT)) {
x[[i]]<-data.frame(MT$Date, Year, MT$[[i]]) }

但是,给我错误。您的指导将受到赞赏,因为我是R

的新手

2 个答案:

答案 0 :(得分:1)

您的代码存在一些语法和算法错误:

  1. 你的for循环没有遍历一系列值,它为i = ncol(MT)“循环”一次,它应该是(i in 1:ncol(MT));
  2. 实际上,您不应遍历所有列,因为其中两列不是Xn,因此(i in 1:(ncol(MT)-2));
  3. 目前尚不清楚你是否这样做,但你应该在尝试为其分配数据之前创建x,最好是以其最终大小;
  4. 您没有使用MT$选择Year列;
  5. 您同时使用$[[Xn列进行了分组。您应该只使用[,因为这样您就可以使用i并保留列名。
  6. 使用一些示例数据修复所有这些,您将得到:

    MT <- data.frame(Date = rnorm(5), Year = rnorm(5), X1 = rnorm(5), X2 = rnorm(5), X3 = rnorm(5))
    
    nX <- ncol(MT)-2
    
    listofdf <- lapply(1:nX, function(x) NULL)
    
    for (i in 1:nX) {
      listofdf[[i]] <- data.frame(MT$Date, MT$Year, MT[i+2])
    }
    
    listofdf
    # [[1]]
    # MT.Date    MT.Year         X1
    # 1 -0.94184053  1.0241134 -0.4329728
    # 2  0.59637577 -0.6195477 -1.3011527
    # 3  0.33474278  1.0628674 -0.8957239
    # 4 -0.04328685  0.4275993 -0.7840214
    # 5  0.78799652  0.5707058 -0.4243622
    # 
    # [[2]]
    # MT.Date    MT.Year         X2
    # 1 -0.94184053  1.0241134  2.2380838
    # 2  0.59637577 -0.6195477 -0.9995170
    # 3  0.33474278  1.0628674  0.3452450
    # 4 -0.04328685  0.4275993 -1.0453718
    # 5  0.78799652  0.5707058 -0.6292885
    # 
    # [[3]]
    # MT.Date    MT.Year          X3
    # 1 -0.94184053  1.0241134 -0.05293727
    # 2  0.59637577 -0.6195477  0.84947635
    # 3  0.33474278  1.0628674  1.17748809
    # 4 -0.04328685  0.4275993  1.73233398
    # 5  0.78799652  0.5707058 -0.61874653
    

    如果您只是将它们保存为.csv文件,则不必存储在列表中。相反,您可以使用:

    for (i in 1:nX) {
      tempdf <- data.frame(MT$Date, MT$Year, MT[i+2])
      write.csv(tempdf, paste0("MT_subset_X", i, ".csv"))
    }
    

答案 1 :(得分:0)

重复使用@Molx创建的示例数据,并在评论中使用tidyr

在@Neal Fultz的评论中进行重点整理
# generate sample data
MT <- data.frame(Date = rnorm(5), Year = rnorm(5), X1 = rnorm(5), X2 = rnorm(5), X3 = rnorm(5))

然后将除DateYear之外的所有变量和值拟合为键值列对

> require(tidyr)
> MTg <- gather(MT, var, value, -c(Date, Year))
> MTg
         Date       Year var       value
1  -1.5356474 -1.0963886  X1 -0.74075807
2  -1.1346928  0.2925819  X1  1.42787059
3   0.7031032  0.3361561  X1 -0.27112156
4   1.0140557  1.2587298  X1  0.85693377
5   0.2529787 -3.0113663  X1  0.12686607
6  -1.5356474 -1.0963886  X2  0.21406288
7  -1.1346928  0.2925819  X2 -1.11363330
8   0.7031032  0.3361561  X2 -0.30324978
9   1.0140557  1.2587298  X2  0.48954893
10  0.2529787 -3.0113663  X2  0.85898166
11 -1.5356474 -1.0963886  X3 -0.44394680
12 -1.1346928  0.2925819  X3 -0.86942530
13  0.7031032  0.3361561  X3 -1.62344294
14  1.0140557  1.2587298  X3  0.09880026
15  0.2529787 -3.0113663  X3 -0.76091871

然后运行所有可能的变量名称,将它们导出为与var同名的单个csv文件。

varnames <- levels(MTg$var)  # get variable names
dummy <- lapply(varnames, function(x)
  write.csv(MTg[MTg$var==x,], file=paste0(x, ".csv"))