我正在使用大型Twitter数据集,我正在尝试使用时间列计算单词列和小时,然后将其显示为直方图,以便我可以看到单词如何随时间变化(分布随着时间的推移)。我想知道是否有人知道如何用R做到这一点?
可以通过以下链接访问数据样本:https://docs.google.com/spreadsheets/d/1JhXEyzkjPs59hVgoS3lW7e0Fcumis62QDUvuMP2q5aQ/edit?usp=sharing
谢谢, 詹姆斯
答案 0 :(得分:0)
将您的文件读入R,(我假设您在下面的代码中将文件数据设置为x的变量)然后使用以下内容:
# Initialize
k=1000
theta1_10 = vector(,k)
theta1_100 = vector(,k)
theta1_1000 = vector(,k)
theta1_10000 = vector(,k)
# Method1
for(i in 1:k){
N10=runif(10)
N100=runif(100)
N1000=runif(1000)
N10000=runif(10000)
theta1_10[k] = (1/10)*4*sum(sqrt(1-N10^2))
theta1_100[k] = (1/100)*4*sum(sqrt(1-N100^2))
theta1_1000[k] = (1/1000)*4*sum(sqrt(1-N1000^2))
theta1_10000[k] = (1/10000)*4*sum(sqrt(1-N10000^2))
}
# Result Method 1
result = data.frame(mean = c(mean(theta1_10),mean(theta1_100),mean(theta1_1000),mean(theta1_10000)),
sd = c(sd(theta1_10),sd(theta1_100),sd(theta1_1000),sd(theta1_10000)))
rownames(result) <- c("theta1_10","theta1_100","theta1_1000","theta1_10000")
result
mean sd
theta1_10 3.145259 0.287263626
theta1_100 3.142640 0.089207786
theta1_1000 3.140476 0.027901399
theta1_10000 3.141695 0.009046627
它返回如下输出:
require(dplyr)
x%>%group_by(Time, Word)%>%
summarise(count=n())
您可以在数据表或数据框中捕获