大数据集的R编程错误

时间:2018-10-29 20:39:44

标签: r

我已经根据单价折叠了以下数据框

~/Umbraco/Api/Test/GetAll

我将代码用作

Material Unit Price Document.Date
 500       4.28       2017-08-18
 500       5.00       2018-06-07

我得到的输出像预期的那样

library(data.table)
Data$newdate<-strptime(Data$Document.Date,format="%m/%d/%Y")
df_orig <- as.data.table(Data)
d=df_orig[ , newdate := as.Date(newdate,format="%m/%d/%Y")][order(newdate)]
e=d[, .(newvar = paste(Unit Price, collapse="/")), by=.(Material)]
e$newvar1=gsub("[/]"," > ",e$newvar)  #to replace "/" with " > "
e$newvar=NULL
e$newvar2=sapply(str_extract_all(gsub("\\b(\\d+\\.\\d+)(?:\\s+>\\s+\\1\\b)+", "\\1", e$newvar1), "\\d+\\.\\d+"), paste, collapse=" > ")
e$newvar1=NULL

但是如果在大型数据集中存在相同的值,我将获得以下输出(对于相同的代码)。那是5失踪了。我可以知道为什么吗?

Material  newvar2
 500      4.28 > 5

0 个答案:

没有答案