应用错误收集

我不确定我是否完全理解你的问题（这些统计术语对我来说有些陌生）;但是，您寻找的数据的一个示例可能是转录组数据。术语“转录组数据”是指测量生物体细胞中存在的RNA的量。像这样的数据集的轴通常是基因（编码特定RNA链的基因）的细胞（体内细胞的类型，例如心脏，肺），按时间（时间点）测量细胞的时间。）

不幸的是，单元轴不是顺序轴而是标称轴。其他两个轴绝对是顺序的。我想这也是一个三维张量而不是二维矩阵。

大约有20,000个基因，随着我们的测序技术的改进，时间轴显然会变得非常大。

此类数据通常非常稀疏。细胞不仅不会“表达”[1]每个基因，而且我们还怀疑有时RNA的数量太低而不能可靠地测量它！这导致了有趣的统计问题，其中需要对稀疏性和低测量计数进行建模！

wikipedia page on RNA-Seq是一个很好的介绍。此外，如果你对生物学，数学和计算机科学的融合感兴趣，你可能会发现Models Inference and Algorithms的讲座很有趣，特别是你可能会喜欢Kharchenko的演讲“从一个到数百万个细胞：单个计算挑战 - 细胞分析“！

[1]表达“表达基因”意味着细胞实际上将基因转录成相应的RNA而不是忽略它

具有巨大维度数据的遗传学示例

1 个答案: