如何按小时统计单词和小组?

时间:2017-03-31 20:09:30

标签: r

我正在使用大型Twitter数据集,我正在尝试使用时间列计算单词列和小时,然后将其显示为直方图,以便我可以看到单词如何随时间变化(分布随着时间的推移)。我想知道是否有人知道如何用R做到这一点?

可以通过以下链接访问数据样本:https://docs.google.com/spreadsheets/d/1JhXEyzkjPs59hVgoS3lW7e0Fcumis62QDUvuMP2q5aQ/edit?usp=sharing

谢谢, 詹姆斯

1 个答案:

答案 0 :(得分:0)

将您的文件读入R,(我假设您在下面的代码中将文件数据设置为x的变量)然后使用以下内容:

# Initialize
k=1000
theta1_10 = vector(,k)
theta1_100 = vector(,k)
theta1_1000 = vector(,k)
theta1_10000 = vector(,k)

# Method1
for(i in 1:k){
  N10=runif(10) 
  N100=runif(100)
  N1000=runif(1000)
  N10000=runif(10000)
  theta1_10[k] = (1/10)*4*sum(sqrt(1-N10^2))
  theta1_100[k] = (1/100)*4*sum(sqrt(1-N100^2))
  theta1_1000[k] = (1/1000)*4*sum(sqrt(1-N1000^2))
  theta1_10000[k] = (1/10000)*4*sum(sqrt(1-N10000^2))
}

# Result Method 1
result = data.frame(mean = c(mean(theta1_10),mean(theta1_100),mean(theta1_1000),mean(theta1_10000)),
                    sd = c(sd(theta1_10),sd(theta1_100),sd(theta1_1000),sd(theta1_10000)))
rownames(result) <- c("theta1_10","theta1_100","theta1_1000","theta1_10000")
result

                 mean          sd
theta1_10    3.145259 0.287263626
theta1_100   3.142640 0.089207786
theta1_1000  3.140476 0.027901399
theta1_10000 3.141695 0.009046627

它返回如下输出:

require(dplyr)
x%>%group_by(Time, Word)%>%
  summarise(count=n())

您可以在数据表或数据框中捕获