我正在寻找一个巨大的三维列联表的真实例子,其中,行和列的数量是数千或数百万。这两个随机变量是序数(非标称)。
有稀疏数据的问题吗?说,我们需要在列联表中测试两个序数随机变量X和Y的独立性,其中X或Y或者维度1000(1000000)和表的输入都包含许多没有观察的单元格?
我认为生物学中可能有一些例子,但我不知道它。有谁能建议吗?
答案 0 :(得分:0)
我不确定我是否完全理解你的问题(这些统计术语对我来说有些陌生);但是,您寻找的数据的一个示例可能是转录组数据。术语“转录组数据”是指测量生物体细胞中存在的RNA的量。像这样的数据集的轴通常是基因(编码特定RNA链的基因)的细胞(体内细胞的类型,例如心脏,肺),按时间(时间点)测量细胞的时间。)
不幸的是,单元轴不是顺序轴而是标称轴。其他两个轴绝对是顺序的。我想这也是一个三维张量而不是二维矩阵。
大约有20,000个基因,随着我们的测序技术的改进,时间轴显然会变得非常大。
此类数据通常非常稀疏。细胞不仅不会“表达”[1]每个基因,而且我们还怀疑有时RNA的数量太低而不能可靠地测量它!这导致了有趣的统计问题,其中需要对稀疏性和低测量计数进行建模!
wikipedia page on RNA-Seq是一个很好的介绍。此外,如果你对生物学,数学和计算机科学的融合感兴趣,你可能会发现Models Inference and Algorithms的讲座很有趣,特别是你可能会喜欢Kharchenko的演讲“从一个到数百万个细胞:单个计算挑战 - 细胞分析“!
[1]表达“表达基因”意味着细胞实际上将基因转录成相应的RNA而不是忽略它