汇总来自多个帐户的动物园时间序列推文

时间:2015-07-08 14:28:32

标签: r twitter time-series zoo

当我在R中聚合或分类动物园对象时,我设法让自己陷入停顿状态,因为我不熟悉使用R,特别是处理时间序列数据。

任何人都可以帮助我吗?

我有许多数据框,可以提供推文的创建日期及其针对多个特定Twitter帐户的ID

str(temp)
'data.frame':   1528 obs. of  2 variables:
 $ id_str    : chr  "605698007263260672" "605681239408963584" "603854670856069120" "601792133297786880" ...
 $ created_at: POSIXct, format: "2015-06-02 12:30:32" "2015-06-02 11:23:55" "2015-05-28 10:25:47" "2015-05-22 17:49:59" ...

我不知道推文的频率(创建日期值之间的间距),但我需要创建一个包含

的数据集
 TimeSeries AccountName NumOfTweets
   2010-01   MyTweeter    45
   2010-02   YourTweeter  5

我想根据创建的进行分组,并计算有多少并绘制它们以显示多个帐户如何相互比较自记录开始以来的推文和持续活动的数量。

关于如何处理合并或加入时间序列的任何建议,以便我可以使用x轴上的时间序列和Y上的推文数量来绘制它们

使用select_n()进行观察的随机样本,并使用dput

提供
dput(sample.df)
structure(list(id_str = c("235710687006035968", "148522094328680448", 
"555743466945523712", "139818931253813249", "601792133297786880", 
"391194341978669057", "455754624859779072", "139640022696603648", 
"182085980864528384", "372375117130526720"), created_at = structure(c(1345032781, 
1324245401, 1421334542, 1322170405, 1432313399, 1382102973, 1397495344, 
1322127750, 1332247655, 1377616120), class = c("POSIXct", "POSIXt"
), tzone = "")), .Names = c("id_str", "created_at"), row.names = c(882L, 
1363L, 33L, 1478L, 4L, 536L, 180L, 1489L, 1116L, 635L), class = "data.frame")

需要输出的示例,但需要帮助计算聚合并将多个数据框合并(每个帐户1个)到合适的最终数据结构中以进行绘图 enter image description here

2 个答案:

答案 0 :(得分:0)

这是否与您要找的相似?首先,将created_at转换为每月,并按ID和月计算观察数(推文):

# To have some counts > 1 and several observations per ID
set.seed(123)
df2 <- data.frame(sample(df$id_str, size = 50, replace = T),
                    sample(df$created_at, size = 50, replace = T))
colnames(df2) <- colnames(df)
# Convert to months
df2$Month <- strftime(df2$created_at, format = "%Y-%m")
result <- aggregate(df2$id_str, by = list(df2$id_str, df2$Month), FUN = length)
colnames(result) <- c("ID", "Month", "nTweets")
head(result)
#                   ID   Month nTweets
# 1 139640022696603648 2011-11       1
# 2 139818931253813249 2011-11       1
# 3 148522094328680448 2011-11       1
# 4 182085980864528384 2011-11       2
# 5 391194341978669057 2011-11       1
# 6 455754624859779072 2011-11       2 

然后你可以使用ggplot绘制结果:

library(ggplot2)
ggplot(result, aes(x = Month, y = nTweets, group = ID, color = ID)) + 
    geom_line(size = 2)

tweets

请注意,x轴在这里没有正确分隔,因为有几个月没有观察到。我想对于完整的数据来说并非如此。

答案 1 :(得分:0)

关注Khl4v的代码和一些试错

首先转换char列&#34; created_at&#34;使用所需的格式字符串到Date对象,以便它可以被识别为日期值

MyDataFrame <- mutate(MyDataFrame,created_at = as.POSIXct(created_at, format="%a %b %d %H:%M:%S %z %Y"))

现在将其转换为Year-Month值,然后创建一个名为df2的新数据框,其中包含字符串&#34; Tweets&#34;我们将很快计算下一年的年度值变化

df2 <- data.frame("Tweets",strftime(MyDataFrame$created_at, format = "%Y-%m"))

将列名重命名为更加用户友好的名称     colnames(df2)&lt; - c(&#34; Tweeter&#34;,&#34; TimePeriod&#34;) 使用聚合函数计算columnd Tweeter中TimePeriod列值每次更改的次数/次数

结果包含该组,即年 - 月和推文的次数

result <- aggregate(df2$Tweeter, by = list(df2$TimePeriod), FUN = length)

在结果中添加另一列以存储使用的tweeter帐户的名称

result  <- mutate(result ,Account ="MyTwitter")

将列名重命名为更加用户友好

colnames(result) <- c("TimePeriod","Tweets","Tweeter")

使用ggplot绘制结果并旋转x标签,使它们更容易阅读

ggplot(result, aes(x = TimePeriod, y = Tweets, group = Tweeter, color = Tweeter)) + geom_line(size = 1) + theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))