非iid数据的示例

时间:2012-10-24 21:52:39

标签: statistics machine-learning probability-theory

我已经阅读了一些有关非iid数据的文章。基于维基百科,我知道iid(独立和相同的分布式)数据是什么,但我仍然对非iid感到困惑。我做了一些研究,但找不到明确的定义和例子。有人可以帮我吗?

5 个答案:

答案 0 :(得分:15)

来自维基百科iid

  

“独立且相同分布”意味着序列中的元素独立于之前的随机变量。这样,IID序列不同于马尔可夫序列,其中第n个随机变量的概率分布是序列中先前随机变量的函数(对于一阶马尔可夫序列)。

作为一个简单的合成示例,假设您有一个带有6个面的特殊骰子。如果最后一次面值为1,那么下次投掷时,你仍然会得到面值为1,概率为0.5,面值为2,3,4,5,6,概率为0.1。但是,如果上一次面值不是1,则每张脸的概率相等。例如,

p(face(0) = k) = 1/6, k = 1,2,3,4,5,6  -- > initial probability at time 0. 
p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
face(t) stands for the face value of t-th throw.

当第n个随机变量的概率分布(第n次投掷的结果)是序列中先前随机变量的函数时,这是一个例子。

我在某些机器学习场景中看到了非相同和非独立(例如马尔可夫)数据,可以将其视为非iid示例。

  • 使用流数据进行在线学习,当传入示例的分布随时间变化时:示例不是相同分布的。假设您有一个用于预测在线广告点击率的学习模块,那么来自用户的查询字词的分布在一年中会根据季节趋势发生变化。夏季和圣诞节期间的查询字词应该有不同的分布。

  • 主动学习,学习者要求提供特定数据的标签:也违反了独立性假设。

  • 使用图形模型学习/制作推理。变量通过依赖关系连接起来。

答案 1 :(得分:1)

以非常手工的方式(因为我假设你已经阅读了技术定义),i.i.d。意味着如果你有一堆值,那么这些值的所有排列都具有相同的概率。因此,如果我有3,6,7,那么这个概率等于7,6,3等于6,7,3等的概率。也就是说,每个值都不依赖于序列中的其他值。

作为一个反例,想象一下序列x,其中每个元素x_i比前一个元素高一个或低一个,这些事件发生的概率为50%。然后一个可能的序列是1,2,3,2,3,4,3,2。应该清楚的是,该序列的某些排列不是等概率的:特别是,起始1,4,...的序列的概率为零。如果您愿意,可以考虑将x_i | x_i-1形式的对作为iid。

答案 2 :(得分:1)

以下是一个不独立的问题示例。问题定义: 假设你的2D图像中有一个blob。您希望构建一个以5X5图像块作为输入操作的补丁类别,并将中心像素分类为“边界”或“非边界”。您的要求是每个补丁的结果分类定义一个连续的轮廓(一个像素厚),准确地跟踪斑点的边界。基本上,边缘检测器。还假设只是几个像素错位边界的轻微误差无关紧要,但边界轮廓的连续性确实很重要(它不应该有任何中断)。

这不是独立的: 例1:假设你有一个很好的解决方案轮廓A.另一个有效的解决方案,B,只是A向右移动了2个像素,请注意像素级别的大多数分类是不同的,但解决方案仍然有效。 示例2:假设您获得有效的解决方案A,除了只有一个输出像素右移2个像素以创建输出C.此时您的轮廓损坏并且解决方案无效。这演示了分类器如何知道其他附近像素示例的答案,以确定特定像素是否应该被分类为边界。

答案 3 :(得分:0)

从字面上看,non iid应该与iid相反,无论是independent还是identical

例如,如果翻转硬币,让X是事件的随机变量,结果是尾,Y是结果为head的事件的随机变量,然后是{{1 }}和X肯定是依赖的。它们可以由彼此决定。

对于非Y,一旦两个随机变量的分布不相同,它们就可以被称为不相同。

因此,无论发生何种情况,您都可以获得identical案例的示例。

答案 4 :(得分:0)

“ iid”实际上不是真实数据的属性,而是观察者对此数据的假设。如果您替换了“ iid数据”和“非iid数据”中的所有提及, greeness回答“假设数据”,那么我完全同意。

由于该问题专门要求提供非iid数据的示例,因此必须添加不存在此类数据,因为您可以从字面上获取任何数据并假定它是iid或不开玩笑。这种假设只是选项的有用限制,在许多情况下使统计建模更容易甚至什至是可能的。

这在文献中并没有很清楚地表明,iid通常被表示为现实世界数据的属性。这是可以理解的,但仍然有些危险,因为它隐式地假设我们(作为观察者)可以确定有关数据源(即生成过程)的信息,而实际上我们不能。

当然,这仅适用于实际数据。任何人都可以根据某种分布来生成人工数据,这必然导致数据成为iid。 但是在没有事实数据的情况下,如果不知道生成过程,就无法确定。仅给出数据,就无法说出它是否为iid。

我知道有些方法可以假定数据为非iid,并尝试相应地查找不同的分布。在许多情况下,这很有用,因为数据实际上是由非平稳随机过程生成的。但是数据只能为您提供样本,并且确定是否确实是iid所需的归纳推理总是容易出错。