r - 每个变量具有不同级别的拉丁超立方抽样

时间:2015-07-03 14:25:28

标签: r simulation categorical-data hypercube

我做了一些挖掘,但我对拉丁超立方采样的概念仍然很新。我发现这个example使用lhs pacakge:

set.seed(1)
randomLHS(5,2)

           [,1]       [,2]
[1,] 0.84119491 0.89953985
[2,] 0.03531135 0.74352370
[3,] 0.33740457 0.59838122
[4,] 0.47682074 0.07600704
[5,] 0.75396828 0.35548904

根据我的理解,结果矩阵中的条目是5个点的坐标,用于确定两个连续变量的组合。

我正在尝试使用5个分类变量进行模拟。每个变量的级别数范围为2到5.这导致2 x 3 x 4 x 2 x 5 = 240个场景。我想尽可能地减少它,所以我想使用拉丁超立方体,但我对如何继续感到困惑。任何想法将不胜感激!

另外,您是否知道有哪些好的资源可以解释如何分析拉丁超立方体采样的结果?

1 个答案:

答案 0 :(得分:2)

由于以下原因,我建议坚持使用240个设计点的全部因子。

  1. 哎呀,这就是计算机用于自动化繁琐的工作 计算任务。 240个设计点没什么,你在做什么 这个在电脑上!您可以使用嵌套轻松自动化该过程 循环迭代级别,每个因子一个循环。唐'吨 忘记复制的最内层循环。如果每次模拟都需要 超过一两分钟,将其分成多个核心或多个核心 机器。我的一个学生最近为他的MS论文做了这个 工作,并能够运行超过一百万的模拟实验 过了一个周末。

  2. 对于连续因素,您通常会假设某种程度的平滑度 响应面并推断/投射相邻设计之间的响应 基于回归的点数。对于分类数据,推理不是 对排除的因子组合和交互有效 很可能是主导效应。除非你全力以赴 因子,您省略的组合可能是也可能不是最多的 重要的是,但重点是你永远不知道是否 你没有那里的样品。

  3. 一般情况下,如果您正在进行任何其他类型的采样,您将使用相同的分析工具 - 回归,逻辑回归,ANOVA,分区树,...对于分类因素,我是分区的粉丝树。