如何检测时间序列数据的变化是否不再重要?

时间:2012-01-28 06:19:14

标签: python statistics time-series data-analysis significance

我有一组新闻文章,其中有统计数据,例如:提及文章的推特帖子数量。统计数据值的自然行为是,随着新闻的老化,新帖子的数量会快速增长然后减少。

我想知道如何计算统计数据的变化不再显着的天数(例如:对于整个数据集的0.1%),并且有一定的置信度。

您能否提供一些提示,在哪里寻找信息和方法?我也很欣赏Python中的一些代码示例:)

1 个答案:

答案 0 :(得分:8)

这个问题实际上是关于时间序列分析。既然您有兴趣确定截止点,那么一个好的起点就是阅读 Control Charts 。 如果您想深入研究统计数据(超出控制图表),请查看Change Point Analysis,并在时间序列中查找结构更改。

Python模块:要在Python中执行此分析, NumPy pandas 模块是相关的。这个post in statalgo将使您在Python代码方面走上正轨。 (如果您愿意使用R进行分析,请考虑使用CRAN软件包 tseries strucchange 。)

SE中的相关问题(统计数据)How to detect a change in time series data?

相关现实生活中的例子:在奥萨马·本·拉登死后,Twitter上有很多analysis done on how that piece of news spread。这篇文章甚至还有一个专门针对你关于停止新闻传播的问题的部分。

最后,您也可以考虑在 Stats SE site 中提出此问题。

希望有所帮助。