R使用字符串来检索数据列

时间:2016-01-12 01:24:58

标签: r character data-retrieval

我正在努力寻找看似简单的东西;但是我已经坚持了很长一段时间了。

我有一个data.frame很长但是这里有一个代表它的样本。

my.dataframe<-data.frame(PointA.X=sample(100,4))
my.dataframe$PointA.Y<-sample(100,4)
my.dataframe$PointB.X<-sample(100,4)
my.dataframe$PointB.Y<-sample(100,4)

     PointA.X PointA.Y PointB.X PointB.Y
1       93       98       46       45
2       58        3       80       89
3       61       64       17       14
4       56       46       65       23

我正在寻找一个使用两个参数的函数,从中可以产生更多参数。

MyFunction<-function(Start, End){
XStart <- get(as.character(paste0("Mydataframe$" , Start , ".X")))
XEnd   <- get(as.character(paste0("Mydataframe$" , End   , ".X")))
YStart <- get(as.character(paste0("Mydataframe$" , Start , ".Y")))
YEnd   <- get(as.character(paste0("Mydataframe$" , End   , ".Y" )))
sqrt(((XStart - XEnd) ^ 2 + (YStart - YEnd) ^ 2))
} # End of My Function

在这种情况下,我将定义StartPoint和EndPoint来计算它们之间的段的长度。     MyFunction(“PointA”,“PointB”)

我的理解

MyFunction("PointA", "PointB")

以下

as.character(paste0("Mydataframe$" , Start , ".X")) 

返回

"Mydataframe$PointA.X"

这是我的数据框中的有效列 使用get()查找对象而不是查找实际数据。

这就是我被困的地方。是否有返回我正在寻找的值的功能?

提前谢谢大家

2 个答案:

答案 0 :(得分:0)

Try this. It may help.


MyFunction<-function(Start, End){
XStart <- eval(parse(text=paste("my.dataframe$",Start,".X", sep = "")))
XEnd   <- eval(parse(text=paste("my.dataframe$",End,".X", sep = "")))
YStart <- eval(parse(text=paste("my.dataframe$",Start,".Y", sep = "")))
YEnd   <- eval(parse(text=paste("my.dataframe$",End,".Y", sep = "")))
sqrt(((XStart - XEnd) ^ 2 + (YStart - YEnd) ^ 2))
}

答案 1 :(得分:0)

正如理查德所建议的,可以使用字符串将数据框子集到括号[[]]中,但不能用$符号。

对未来的建议:使用括号......

  MyFunction<-function(Start, End){
  XStart <- my.dataframe[[paste0(Start, ".X")]]
  YStart <- my.dataframe[[paste0(Start, ".Y")]]

  XEnd <- my.dataframe[[paste0(End, ".X")]]
  YEnd <- my.dataframe[[paste0(End, ".Y")]]

  sqrt(((XStart - XEnd) ^ 2 + (YStart - YEnd) ^ 2))
} # End of My Function

MyFunction("PointA", "PointB") # Note the arguments are provided as characters
> [1] 39.20459 80.52950 34.17601  6.00000

更有趣的是我还可以在列名称之间循环该函数。所以如果数据报更长。

my.dataframe<-data.frame(PointA.X=sample(100,4))
my.dataframe$PointA.Y<-sample(100,4)
my.dataframe$PointB.X<-sample(100,4)
my.dataframe$PointB.Y<-sample(100,4)
my.dataframe$PointC.X<-sample(100,4)
my.dataframe$PointC.Y<-sample(100,4)

功能保持不变:

MyFunction<-function(Start, End){
XStart <- my.dataframe[[paste0(Start, ".X")]]
YStart <- my.dataframe[[paste0(Start, ".Y")]]

XEnd <- my.dataframe[[paste0(End, ".X")]]
YEnd <- my.dataframe[[paste0(End, ".Y")]]

sqrt(((XStart - XEnd) ^ 2 + (YStart - YEnd) ^ 2))
} # End of My Function

我可以建立一个for循环:

for (VariableI in seq(from=1, to=length(colnames(my.dataframe)), by=2)){
Start<-unlist(strsplit(colnames(my.dataframe)[VariableI], "[.]"))[1]
End<-unlist(strsplit(colnames(my.dataframe)[VariableI+2], "[.]"))[1]
assign(paste0(Start,End), MyFunction(Start, End)) 
}

创建以下对象

 PointAPointB
    [1] 32.57299 74.30343 73.08215 83.25863
    PointBPointC
    [1]  5.385165 90.609050 68.883960 58.137767

我想我只是缺少PointAPointC。 我可能会使用combine函数来遍历这个

 combn(colnames(my.dataframe), 2)

    [,1]       [,2]       [,3]       [,4]       [,5]       [,6]       [,7]       [,8]       [,9]       [,10]     
[1,] "PointA.X" "PointA.X" "PointA.X" "PointA.X" "PointA.X" "PointA.Y" "PointA.Y" "PointA.Y" "PointA.Y" "PointB.X"
[2,] "PointA.Y" "PointB.X" "PointB.Y" "PointC.X" "PointC.Y" "PointB.X" "PointB.Y" "PointC.X" "PointC.Y" "PointB.Y"
     [,11]      [,12]      [,13]      [,14]      [,15]     
[1,] "PointB.X" "PointB.X" "PointB.Y" "PointB.Y" "PointC.X"
[2,] "PointC.X" "PointC.Y" "PointC.X" "PointC.Y" "PointC.Y"