我已经阅读了一些有关非iid数据的文章。基于维基百科,我知道iid(独立和相同的分布式)数据是什么,但我仍然对非iid感到困惑。我做了一些研究,但找不到明确的定义和例子。有人可以帮我吗?
答案 0 :(得分:15)
来自维基百科iid
:
“独立且相同分布”意味着序列中的元素独立于之前的随机变量。这样,IID序列不同于马尔可夫序列,其中第n个随机变量的概率分布是序列中先前随机变量的函数(对于一阶马尔可夫序列)。
作为一个简单的合成示例,假设您有一个带有6个面的特殊骰子。如果最后一次面值为1,那么下次投掷时,你仍然会得到面值为1,概率为0.5,面值为2,3,4,5,6,概率为0.1。但是,如果上一次面值不是1,则每张脸的概率相等。例如,
p(face(0) = k) = 1/6, k = 1,2,3,4,5,6 -- > initial probability at time 0.
p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
face(t) stands for the face value of t-th throw.
当第n个随机变量的概率分布(第n次投掷的结果)是序列中先前随机变量的函数时,这是一个例子。
我在某些机器学习场景中看到了非相同和非独立(例如马尔可夫)数据,可以将其视为非iid示例。
使用流数据进行在线学习,当传入示例的分布随时间变化时:示例不是相同分布的。假设您有一个用于预测在线广告点击率的学习模块,那么来自用户的查询字词的分布在一年中会根据季节趋势发生变化。夏季和圣诞节期间的查询字词应该有不同的分布。
主动学习,学习者要求提供特定数据的标签:也违反了独立性假设。
使用图形模型学习/制作推理。变量通过依赖关系连接起来。
答案 1 :(得分:1)
以非常手工的方式(因为我假设你已经阅读了技术定义),i.i.d。意味着如果你有一堆值,那么这些值的所有排列都具有相同的概率。因此,如果我有3,6,7
,那么这个概率等于7,6,3
等于6,7,3
等的概率。也就是说,每个值都不依赖于序列中的其他值。
作为一个反例,想象一下序列x
,其中每个元素x_i
比前一个元素高一个或低一个,这些事件发生的概率为50%。然后一个可能的序列是1,2,3,2,3,4,3,2
。应该清楚的是,该序列的某些排列不是等概率的:特别是,起始1,4,...
的序列的概率为零。如果您愿意,可以考虑将x_i | x_i-1
形式的对作为iid。
答案 2 :(得分:1)
以下是一个不独立的问题示例。问题定义: 假设你的2D图像中有一个blob。您希望构建一个以5X5图像块作为输入操作的补丁类别,并将中心像素分类为“边界”或“非边界”。您的要求是每个补丁的结果分类定义一个连续的轮廓(一个像素厚),准确地跟踪斑点的边界。基本上,边缘检测器。还假设只是几个像素错位边界的轻微误差无关紧要,但边界轮廓的连续性确实很重要(它不应该有任何中断)。
这不是独立的: 例1:假设你有一个很好的解决方案轮廓A.另一个有效的解决方案,B,只是A向右移动了2个像素,请注意像素级别的大多数分类是不同的,但解决方案仍然有效。 示例2:假设您获得有效的解决方案A,除了只有一个输出像素右移2个像素以创建输出C.此时您的轮廓损坏并且解决方案无效。这演示了分类器如何知道其他附近像素示例的答案,以确定特定像素是否应该被分类为边界。
答案 3 :(得分:0)
从字面上看,non iid
应该与iid
相反,无论是independent
还是identical
。
例如,如果翻转硬币,让X
是事件的随机变量,结果是尾,Y
是结果为head的事件的随机变量,然后是{{1 }}和X
肯定是依赖的。它们可以由彼此决定。
对于非Y
,一旦两个随机变量的分布不相同,它们就可以被称为不相同。
因此,无论发生何种情况,您都可以获得identical
案例的示例。
答案 4 :(得分:0)
“ iid”实际上不是真实数据的属性,而是观察者对此数据的假设。如果您替换了“ iid数据”和“非iid数据”中的所有提及, greeness回答“假设数据”,那么我完全同意。
由于该问题专门要求提供非iid数据的示例,因此必须添加不存在此类数据,因为您可以从字面上获取任何数据并假定它是iid或不开玩笑。这种假设只是选项的有用限制,在许多情况下使统计建模更容易甚至什至是可能的。
这在文献中并没有很清楚地表明,iid通常被表示为现实世界数据的属性。这是可以理解的,但仍然有些危险,因为它隐式地假设我们(作为观察者)可以确定有关数据源(即生成过程)的信息,而实际上我们不能。
当然,这仅适用于实际数据。任何人都可以根据某种分布来生成人工数据,这必然导致数据成为iid。 但是在没有事实数据的情况下,如果不知道生成过程,就无法确定。仅给出数据,就无法说出它是否为iid。
我知道有些方法可以假定数据为非iid,并尝试相应地查找不同的分布。在许多情况下,这很有用,因为数据实际上是由非平稳随机过程生成的。但是数据只能为您提供样本,并且确定是否确实是iid所需的归纳推理总是容易出错。