假设您能够跟踪不同实体的新闻提及,例如“Steve Jobs”和“Steve Ballmer”。
有什么方法可以判断每个实体每个实体的提及量是否与正常的出现频率相比是不寻常的?
我认为对于像史蒂夫·乔布斯这样更受欢迎的人来说,增加50%可能是不寻常的(增加1000到1500),而对于一个相对不知名的首席执行官来说,某一天可能会增加1000% (增加2到200)。如果你没有办法扩展你的不寻常指数可能会被闻所未闻的15分钟成名所支配。
更新:为了更清楚,假设您已经能够获得连续的新闻流并识别每个新闻项中的实体并将所有这些存储在关系数据存储中。
答案 0 :(得分:3)
您可以使用rolling average。这就是很多股票追踪者的工作方式。通过跟踪最后的 n 数据点,您可以看到此更改是否是通常方差之外的实质性更改。
您还可以尝试一些规范化 - 一个非常简单的方法是每个类别都有提及的总数( m ),与上一次相比有百分之一的变化时间段( δ ),然后是一些归一化值( z ),其中 z = m * δ即可。让我们看下面的表格( m0 是m的前一个值):
Name m m0 δ z
Steve Jobs 4950 4500 .10 495
Steve Ballmer 400 300 .33 132
Larry Ellison 50 10 4.0 400
Andy Nobody 50 40 .20 10
在这里,对于未知的拉里·埃里森来说400%的变化导致az值为400,对于知名度更高的史蒂夫·乔布斯来说变化为10%是495,而我的20%的尖峰仍然是低于10.你可以调整这个算法取决于你感觉好的权重,或者使用标准偏差或滚动平均值来确定这是否远离它们的“预期”结果。
答案 1 :(得分:2)
某些数据会比其他数据更不稳定,因此您可能需要适当调整X. X = 1是一个合理的起点
答案 2 :(得分:0)
过度简化 - 存储人们的姓名和过去24小时内创建的文章数量,并涉及他们的名字。与历史数据比较。
现实生活 - 如果你想动态挑选出人们的名字,你会怎么做呢?搜索文章你如何获取名字?一旦你拿到一个新名字,你会为他搜索所有文章吗?你是如何将史蒂夫·乔布斯从史蒂夫·乔布斯(Steve Jobs)中分离出来的,这个新的明星跑回来产生了很多文章?
如果您正在寻找简洁性,请创建一个包含您实际插入的50个人姓名的表格。每天午夜,让您的程序在过去24小时内运行快速谷歌查询并存储结果数量。虽然我们没有考虑到这一点,但是有很多变数。
答案 3 :(得分:0)
您使用的方法取决于每个人的计数分布。我的预感是它们不会正常分布,这意味着纵向数据的一些标准方法可能不合适 - 特别是对于您提到的小型,未知的CEO,谁将拥有非常多的数据-Continuous。
我真的不够精通纵向方法,在这里给你一个可靠的答案,但如果你现在把我锁在一个房间来实现这个目标,那么这就是我可能会做的事情。 :
挖掘一堆过去的数据。很难说你需要多少,但我基本上会直到计算机疯狂或时间表变得不切实际(不期待史蒂夫·乔布斯在20世纪30年代引用)。
为了准备创建各种类型的模拟“概率分布”(我在这里松散地使用术语),更新近的数据需要比过去的数据加权更多 - 例如,从现在开始的一千年,听到一个提及(这)史蒂夫乔布斯可能被认为是一个值得注意的事件,所以你不希望从今天开始使用预期的数量(安迪的滚动意义是使用同样的原则)。对于数据库中的每个计数(日),创建随时间衰减的采样概率。昨天是最相关的数据,应经常采样; 30年前不应该。
使用权重和替换样本从该数据集中取样(即,可以对同一数据进行多次采样)。你绘制了多少绘制取决于数据,你跟踪的人数,你的硬件有多好等等。越多越好。
将您当天的实际故事数量与该分配进行比较。模拟计数的百分比高于真实计数?这是粗略的(上帝不让任何经济学家看到这个)你真正计数的概率或当天发生的更大概率。现在你决定什么是相关的 - 5%是常态,但它是一个任意的,愚蠢的规范。只需浏览您的搜索结果一段时间,看看与您相关的内容。结束。
这就是这种方法的糟糕之处:它没有趋势。如果史蒂夫乔布斯一周前有15,000,三天前有2000,昨天有300,那么就有明显的下降趋势。但是上面概述的方法只能通过减少旧数据的权重来解决这个问题;它没有办法预测这一趋势。它假设这个过程基本上是stationary - 随着时间的推移没有真正的变化,来自同一个随机过程的事件越来越少。
无论如何,如果你有耐心和意志力,请查看一些真实的统计数据。例如,您可以查看多级模型(每天是嵌套在个体中的重复测量)。只要注意你的参数假设......提及计数,特别是在小端,是不正常的。如果它们完全符合参数分布,它将在泊松族中:泊松本身(祝你好运),过度分散的泊松(又称负二项式),或零膨胀的泊松(很可能是你的小鱼苗,没有史蒂夫的机会。
无论如何,这是一个很棒的问题。请支持the statistics StackExchange site,一旦它结束,你将能够获得比这更好的答案。