我有一个包含维基百科编辑的数据框,其中包含有关用户编辑次数的信息(第1次编辑,第2次编辑等),编辑时间戳以及添加的字数。
在实际数据集中,每个用户最多可以进行20.000次编辑,在某些编辑中,它们最多可以添加30.000个单词。
然而,here is a downloadable small example数据集来举例说明我的问题。标题如下所示:
我试图在Edit Progression和时间之间绘制添加单词的分布。如果我使用常规的R barplot,我就像预期的那样工作:
barplot(UserFrame3$NoOfAdds,UserFrame3$EditNo)
但是我想在ggplot中做更好的图形和更多自定义选项。
如果我将其绘制为散点图,我会得到相同的结果:
ggplot(data = UserFrame3, aes(x = UserFrame3$EditNo, y = UserFrame3$NoOfAdds)) + geom_point(size = 0.1)
线图相同:
ggplot(data = UserFrame3, aes(x = UserFrame3$EditNo, y = UserFrame3$NoOfAdds)) +geom_line(size = 0.1)
但是当我尝试将它作为ggplot中的条形图绘制时,我得到了这个结果:
ggplot(data = UserFrame3, aes(x = UserFrame3$EditNo, y = UserFrame3$NoOfAdds)) + geom_bar(stat = "identity", position = "dodge")
X轴上似乎有更多的洞,最大值不应该接近它应该的位置(y = 317)。
我怀疑ggplot以某种方式对条形图进行分组并使用均值代替实际值,尽管"闪避"参数?我怎么能避免这个?如何在没有ggplot平均多次编辑的情况下将时间进度绘制为条形图?