我有一个包含许多列和行的数据集(Purchase.df)。这个问题的重要变量名称是“Customer”,“OrderDate”,“DateRank”(对日期进行排名,以便找到最小的日期)和“BrandName”。以下是我正在使用的一个非常小的样本:(我是这个网站的新手,所以我希望下面粘贴的内容有效)
Purchase.df<-structure(list(Customer = c(10071535L, 10071535L, 10071535L,
10071535L, 10071535L, 10071535L, 10071711L, 10071711L, 10071711L,
10071711L, 10071711L, 10071711L, 10071711L, 10071711L, 10071711L,
10071711L, 10071711L, 10071711L, 10072059L, 10072059L, 10072059L,
10072113L, 10072113L, 10072113L, 10072113L, 10072113L, 10072113L,
10072113L), BrandName = structure(c(1L, 2L, 2L, 2L, 3L, 3L, 2L,
2L, 2L, 2L, 3L, 3L, 1L, 3L, 1L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 2L,
2L, 3L, 3L, 3L, 3L), .Label = c("X", "Y", "Z"), class = "factor"),
OrderDate = structure(c(14L, 14L, 15L, 16L, 19L, 20L, 11L,
18L, 5L, 6L, 1L, 17L, 21L, 22L, 23L, 8L, 10L, 13L, 7L, 9L,
12L, 4L, 4L, 2L, 2L, 2L, 3L, 3L), .Label = c("1/17/2011 0:00",
"1/19/2010 0:00", "1/25/2010 0:00", "1/4/2010 0:00", "10/22/2010 0:00",
"11/15/2010 0:00", "11/23/2011 0:00", "12/14/2011 0:00",
"12/16/2011 0:00", "2/7/2012 0:00", "3/16/2010 0:00", "3/21/2012 0:00",
"4/16/2012 0:00", "4/27/2012 0:00", "5/16/2012 0:00", "5/30/2012 0:00",
"5/5/2011 0:00", "6/1/2010 0:00", "6/12/2012 0:00", "7/3/2012 0:00",
"8/1/2011 0:00", "8/16/2011 0:00", "9/19/2011 0:00"), class = "factor"),
DateRank = c(18.5, 18.5, 20, 21, 24, 25, 15, 23, 9, 10, 1,
22, 26, 27, 28, 12, 14, 17, 11, 13, 16, 7.5, 7.5, 3, 3, 3,
5.5, 5.5)), .Names = c("Customer", "BrandName", "OrderDate",
"DateRank"), row.names = c(NA, -28L), class = "data.frame")
我已经创建了这个大型数据集(subset.df)的子集,它找到了每个客户的第一个OrderDate,并告诉我们他们购买了哪个品牌。我使用以下代码执行此操作:
subset1<-split(Purchase.df,Purchase.df$Customer)
subset2<-lapply(split(Purchase.df,Purchase.df$Customer), function(chunk) chunk[which(chunk$DateRank==min(chunk$DateRank)),])
subset.df<-do.call(rbind, as.list(subset2))
现在,我想知道哪些客户在他们的第一个OrderDate上订购了Brand X,并创建了一个新数据集(BigSubset.df),其中包含在第一个订单日期购买Brand X的客户的所有OrderDates。 / p>
应该是这样的:
Customer BrandName OrderDate DateRank
10071535 X 4/27/2012 0:00 18.5
10071535 Y 4/27/2012 0:00 18.5
10071535 Y 5/16/2012 0:00 20
10071535 Y 5/30/2012 0:00 21
10071535 Z 6/12/2012 0:00 24
10071535 Z 7/3/2012 0:00 25
10072059 X 11/23/2011 0:00 11
10072059 X 12/16/2011 0:00 13
10072059 X 3/21/2012 0:00 16
10072113 X 1/4/2010 0:00 7.5
10072113 Y 1/4/2010 0:00 7.5
10072113 Y 1/19/2010 0:00 3
10072113 Z 1/19/2010 0:00 3
10072113 Z 1/19/2010 0:00 3
10072113 Z 1/25/2010 0:00 5.5
10072113 Z 1/25/2010 0:00 5.5
当我尝试从Purchase.df创建BigSubset.df时,我似乎无法让R引用较小的数据集,因为行数不相等。我在谷歌上搜索过并没有看到任何答案,所以我甚至不确定这是否可能在R.让我知道你的想法。
答案 0 :(得分:2)
也许我误解了,但我相信这很有效:
Xfirst <- as.vector(subset.df[subset.df$BrandName == "X", ])$Customer
BigSubset.df <- Purchase.df[Purchase.df$Customer %in% Xfirst, ]
我认为您的日期可能存在错误,因为在您的示例中,客户10072113的日期为2010年1月19日排名3但是2010年1月4日排名为7.5。 (旁注,在您的chunk
函数中,您可以使用which.min(chunk$DateRank)
代替which(chunk$DateRank==min(chunk$DateRank))
,我认为这更有效。)