我有一组新闻文章,其中有统计数据,例如:提及文章的推特帖子数量。统计数据值的自然行为是,随着新闻的老化,新帖子的数量会快速增长然后减少。
我想知道如何计算统计数据的变化不再显着的天数(例如:对于整个数据集的0.1%),并且有一定的置信度。
您能否提供一些提示,在哪里寻找信息和方法?我也很欣赏Python中的一些代码示例:)
答案 0 :(得分:8)
这个问题实际上是关于时间序列分析。既然您有兴趣确定截止点,那么一个好的起点就是阅读 Control Charts 。 如果您想深入研究统计数据(超出控制图表),请查看Change Point Analysis,并在时间序列中查找结构更改。
Python模块:要在Python中执行此分析, NumPy 和 pandas 模块是相关的。这个post in statalgo将使您在Python代码方面走上正轨。 (如果您愿意使用R进行分析,请考虑使用CRAN软件包 tseries 和 strucchange 。)
SE中的相关问题(统计数据):How to detect a change in time series data?
相关现实生活中的例子:在奥萨马·本·拉登死后,Twitter上有很多analysis done on how that piece of news spread。这篇文章甚至还有一个专门针对你关于停止新闻传播的问题的部分。
最后,您也可以考虑在 Stats SE site 中提出此问题。
希望有所帮助。