我已经在格式为
的CSV文件中收集了一组交易{Pierre, lait, oeuf, beurre, pain}
{Paul, mange du pain,jambon, lait}
{Jacques, oeuf, va chez la crémière, pain, voiture}
我计划进行简单的关联规则分析,但首先我想从每个不属于ReferenceSet = {lait, oeuf, beurre, pain}
的交易中排除项目。
因此,在我的例子中,我的结果数据集将是:
{Pierre, lait, oeuf, beurre, pain}
{Paul,lait}
{Jacques, oeuf, pain,}
我确信这很简单,但我很乐意阅读建议/答案以帮助我。
答案 0 :(得分:5)
另一个答案引用%in%
,但在这种情况下,intersect
更为方便(您可能也想看match
- 但我认为它在同一个地方记录在案%in%
) - 通过lapply
和intersect
,我们可以将答案变为单行:
数据:
> L <- list(pierre=c("lait","oeuf","beurre","pain") ,
+ paul=c("mange du pain", "jambon", "lait"),
+ jacques=c("oeuf","va chez la crémière", "pain", "voiture"))
> reference <- c("lait", "oeuf", "beurre", "pain")
答案:
> lapply(L,intersect,reference)
$pierre
[1] "lait" "oeuf" "beurre" "pain"
$paul
[1] "lait"
$jacques
[1] "oeuf" "pain"
答案 1 :(得分:4)
接下来是一种方式(但是,当我将结构作为矩阵离开时,我已经删除了已删除数据的NAs(如果导出回CSV,则可以删除这些);我也确定可以没有循环这样做 - 这会使它更快(但是,恕我直言的可读性更低),而且我确信有一种更有效的方式来做逻辑 - 我也有兴趣看到别人对此的观点)
ref <- c("lait","oeuf","beurre","pain")
input <- read.csv("info.csv",sep=",",header=FALSE,strip.white=TRUE)
> input
V1 V2 V3 V4 V5
1 Pierre lait oeuf beurre pain
2 Paul mange du pain jambon lait
3 Jacques oeuf va chez la crémière pain voiture
input <- as.matrix(input)
output <- matrix(nrow=nrow(input),ncol=ncol(input))
currentRow <- c()
for(i in 1:nrow(input)) {
j <- 2
output[i,1]<-input[i,1]
for(k in 2:length(input[i,])) {
if(toString(input[i,k]) %in% ref){
output[i,j] <- toString(input[i,k])
j<-j+1
}
}
}
> output
[,1] [,2] [,3] [,4] [,5]
[1,] "Pierre" "lait" "oeuf" "beurre" "pain"
[2,] "Paul" "lait" NA NA NA
[3,] "Jacques" "oeuf" "pain" NA NA
答案 2 :(得分:1)
%in%
运算符会派上用场。
pierre <- c("lait","oeuf","beurre","pain")
paul <- c("mange du pain", "jambon", "lait")
jacques <- c("oeuf","va chez la crémière", "pain", "voiture")
reference <- c("lait", "oeuf", "beurre", "pain")
pierre_fixed <- pierre[pierre %in% reference]
paul_fixed <- paul[paul %in% reference]
jacques_fixed <- jacques[jacques %in% reference]
pierre_fixed
paul_fixed
jacques_fixed