我有一个csv文件,其中一小部分是
Optimal
value 7.35-7.45 4.5-8 5.6-7.9 0
ID V1 V2 V3 V4
1 7.1 5.5 7.6 218
10 7.8 4.8 6.3 407
50 7.12 5.2 5.4 140
(数据改变bcs。保密)
总共有125个科目和约50个变量
我需要为每个变量创建值和范围之间距离的绝对值。所以,例如对于ID 1:
V1dist = abs(7.1 - 7.35) = .25
V2dist = 0 because 4.5 < 5.5 < 8
V3dist = 0 because 5.6 < 7.6 < 7.9
V4dist = 218 because the optimal value is 0
有些值在范围内 - 它们应该为0.有些值较低,有些值较高。
所以,我有两个问题:1)如何读取数据2)如何创建新变量
我可以访问SAS和R(以及Excel,但......)
答案 0 :(得分:4)
这是一个解决方案。首先,我阅读并格式化数据。我读了跳过第一行的矩阵(范围一)然后我读了一行(这可以使用readLines进行优化)。
dat <- read.table(text='value 7.35-7.45 4.5-8 5.6-7.9 0
ID V1 V2 V3 V4
1 7.1 5.5 7.6 218
10 7.8 4.8 6.3 407
50 7.12 5.2 5.4 140',header=TRUE,skip=1)
mm <- as.matrix(dat[,-1])
rownames(mm) <- dat[,1]
rngs <- read.table(text='value 7.35-7.45 4.5-8 5.6-7.9 0
ID V1 V2 V3 V4
1 7.1 5.5 7.6 218
10 7.8 4.8 6.3 407
50 7.12 5.2 5.4 140',nrows=1)
rngs <- lapply(unclass(rngs[1,-1]),
function(x)as.numeric(unlist(strsplit(as.character(x),'-'))))
names(rngs) <- colnames(mm)
mm
V1 V2 V3 V4
1 7.10 5.5 7.6 218
10 7.80 4.8 6.3 407
50 7.12 5.2 5.4 140
> rngs
$V1
[1] 7.35 7.45
$V2
[1] 4.5 8.0
$V3
[1] 5.6 7.9
$V4
[1] 0
然后我将值与范围进行比较。我遍历每一列,并使用嵌套的ifelse
我计算范围。注意我没有范围的情况,我重复相同的值。
sapply(names(rngs),function(x)
{
vec <- mm[,x]
inter <- rngs[[x]]
if(length(inter)==1) inter <- rep(inter,2)
## within interval
ifelse(mm[,x] < inter[2] & mm[,x] > inter[1],
0,ifelse(mm[,x] > inter[2], mm[,x]-inter[2], inter[1]-mm[,x]))
})
V1 V2 V3 V4
1 0.25 0 0.0 218
10 0.35 0 0.0 407
50 0.23 0 0.2 140