我需要在我的数据集中创建一个新变量来计算在线评论的发布顺序。
该数据集包括亚马逊针对特定产品的在线评论(由其ASIN编号标识)以及相应的Unix时间戳。到目前为止,我已经能够通过ASIN对产品进行分类,并在此期间按时间戳进行分类。现在我想创建一个包含这样的发布顺序的列:
I need the posting order to start from 1 every time that ASIN changes
有关如何在Excel或R ??
中执行此操作的任何想法提前多多感谢!!
答案 0 :(得分:0)
在Excel中,当您的工作表布局时,在E列中使用以下公式(并填写)。
=IF(B2<>B1,1,E1+1)
答案 1 :(得分:0)
在R
中,我们可以使用ave
中的base R
按组创建序列(&#34; ASIN&#34;)。
df1$PostingOrder <- with(df1, ave(seq_along(ASIN), ASIN, FUN= seq_along))
更短,更紧凑的选项是
library(splitstackshape)
getanID(df1, "ASIN")[]