我有一个数据集(x,y),其中x是n维向量,y是m维向量。 (m = 3,n> 2) 我的目标是在x中找到拟合(x,y)数据集的最佳多项式。
x的尺寸非常大(现在它是25),我不想手动输入所有可能性(即x1 * x3 * x5,x1 * x4 * x6,...)。我可以使用Matlab,Mathematica和R.我怎么能这样做?
另外,我有兴趣听听您对以下问题的建议:如何从结果中选择最相关的系数? (也许x1 * x2比x2 * x3更相关)
谢谢
答案 0 :(得分:4)
这个问题并不是关于任何分析平台,而是如何正确地进行多变量分析。因此,应该增加对主题领域的描述。还需要适当考虑正在发生的隐式多重测试以及应该采取何种惩罚来避免推论统计数据的膨胀。一句话:您应该阅读Frank Harrell的“回归建模策略”,其中每个句子都扩展为一个完整的章节。 (我也认为问题过于宽泛,应该关闭或迁移到stats.stackexchange。)它尚未准备好进行黄金时段编码。
答案 1 :(得分:0)
除了DWin的回答:
关于多项式,可以通过van der Monde矩阵的线性回归表示,然后使用多元线性回归。但是,对于许多变量,您可能会发现您需要限制模型而不是允许进一步的自由度。
另外,我有兴趣听听您对以下问题的建议:如何从结果中选择最相关的系数? (也许x1 * x2比x2 * x3更相关)
这归结为变量选择,这是一个众所周知的难题。我认为Efron将其命名为未解决的大问题之一......