Matlab:使用表VariableNames显式或命名`splitapply`参数的关联

时间:2018-05-04 04:04:42

标签: sql matlab

我一直在苦苦寻找Matlab中执行常见SQL操作所需的额外代码和簿记。以下是用于生成汇总数据表tDat的度量标准的典型SQL代码模式的示例:

SELECT vGrouping, MEAN( x - y ) AS rollup1, VAR(y+z) AS rollup2
INTO tRollups FROM tDat GROUP BY vGrouping

我的SQL有点生疏,但SQLers应该清楚一般的想法。这是Matlab的等价物:

% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Calculate summary metrics for each group of data
[vGroup,grps] = findgroups(tDat.vGrouping)
fRollup = @(a,b,c)[ mean(a-b) var(b+c) ] % Calculates summary metric
rollups = splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup )

% Code pattern 1 to assemble results
tRollups = [ array2table( grps , 'VariableNames',{'group'} ) ...
             array2table( rollups , ...
                          'VariableNames',{'rollup1','rollup2'} ) ]

% Code pattern 2 to assemble results
tRollups = array2table( [grps rollups], ...
                        'VariableNames',{'group','rollup1','rollup2'} )

这不是一个公平的比较,因为Matlab代码包含数据设置,以及用于汇总摘要指标的两种可能的代码模式。此外,我添加了评论 - 不是为了使Matlab代码更加庞大,而是因为它更加繁忙,需要一些认知路标来帮助阅读。

除了代码卷之外,令我烦恼的一件事是fRollup中的汇总表达式与输入或输出数据列的名称没有明确关联。参数是伪参数,tDat中的实际输入数据列在splitapply调用中指定。与fRollup参数的关联是位置的,因此字段/变量名称本身不能强制执行正确的关联。同样,tRollups中的输出列在array2table调用中指定,再次与fRollup输出位置关联。

这使得在Matlab代码中很难看到SQL语句中相当简单的关系。是否存在一种没有这种缺点的替代模式或设计习语,但希望不会对其他缺点产生太大影响?

AFTERNOTE:由于某种原因,即使以下内容并未解决splitapply输入/输出参数与实际输入/输出变量的命名/显式关联,我仍然发现更容易看到关系。代码肯定看起来不那么吵闹。关键是用于生成数据汇总度量的函数fRollup现在返回多个输出,而不是将它们捆绑到单个阵列输出中。这允许我明确地将标量struct ssRollups的属性命名为赋值的目标。我不需要对表进行各种转换,使用额外的代码来指定VariableNames,只是为了将结果与已识别的组连接起来。相反,群组标识开始只是与grps结果相同的structssRollups)中的另一个属性splitapply - 事实上,它是第一个使struct存在的属性。

% File tmp.m
%-----------
function tmp

   % Create test data
   tDat = array2table( floor(10*rand(5,3)) , ...
                       'VariableNames',{'x','y','z'} );
   tDat.vGrouping = ( rand(5,1) > 0.5 )

   % Find the groups
   [ vGroup, ssRollups.grps ] = findgroups(tDat.vGrouping)

   % Calculate summary metrics for each group of data
   [ ssRollups.rollup1 ssRollups.rollup2 ] = ...
      splitapply( @fRollup, tDat(:,{'x','y','z'}), vGroup );

   % Display use nice table formatting
   struct2table( ssRollups )

end % function tmp

function [rollup1 rollup2] = fRollup(a,b,c)
   rollup1 = mean(a-b);
   rollup2 = var(b+c);
end % function fRollup

作为多输出函数,fRollup似乎更适合非匿名函数。对我来说,它实际上似乎更好地记录了多个输出,尽管代码不那么紧凑。它可能只是其中一种情况,其中更紧凑的可读性更低,导致数据关系更难以看到。但是,它确实需要将整个代码段转换为函数(在这种情况下为tmp),除非你不介意将fRollup分解为它自己的函数和m文件。我不想在我的文件系统中丢弃那些意味着在一个地方使用的小片段功能。

1 个答案:

答案 0 :(得分:1)

这个“答案”并不直接处理实际输入/输出变量与提供给splitapply的函数句柄的参数之间的显式命名关联。但是,它显着简化了初始示例中的代码,希望能够更清楚地看到函数参数和输入/输出变量之间的关系。此解决方案最初包含在问题中的 AFTERNOTE 中。由于更好的答案似乎不会很快到来,我决定将其作为答案。它使用dealsplitapply实现匿名多输出函数,以便在由其分组参数描述的数据组上使用。

% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Find the groups
[ vGroup, ssRollups.grps ] = findgroups(tDat.vGrouping)

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display use nice table formatting
struct2table( ssRollups )

在出现更好的解决方案之前,这种方法将成为我splitapply的惯用语。

以下是使用表变量作为splitapply输出的变体。使用多个分组变量时这可能更方便,因为findgroups会将分组变量名称传递给LHS上的输出变量tRollups

% Create test data
tDat = array2table( floor(10*rand(8,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat = [ tDat ...
         array2table( rand(8,2)>0.5 , ...
                      'VariableNames',{'vGrpng1','vGrpng2'} ) ];

% Find the groups
[ vGroup, tRollups ] = findgroups(tDat(:,{'vGrpng1','vGrpng2'}));

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ tRollups.rollup1 tRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

tRollups

这是一个使用多个分组变量的版本,并使用标量结构而不是表格来表示findgroupsplitapply的输出:

% Create test data
tDat = array2table( floor(10*rand(8,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrpng1 = rand(8,1)>0.5 ;
tDat.vGrpng2 = rand(8,1)>0.5

% Find the groups
[ vGroup, ssRollups.vGrpng1, ssRollups.vGrpng2 ] = ...
    findgroups( tDat.vGrpng1, tDat.vGrpng2 );

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display using nice table formatting
struct2table( ssRollups )