有效地确定电子表格中行之间的关系

时间:2010-10-11 18:33:47

标签: algorithm performance

这是我刚遇到的一个问题,或者更确切地说是一个捕捉核心问题的简化。

想象一下,我有一个包含多个列的电子表格,每个列都有标记,还有很多行。

我想确定何时可以从另一列中的值推断出一列中的值。例如,我们可能会发现,每当“1”出现在 a 列中时,“5”始终显示在 d 列中,但每当“2”出现在列 a ,a 3始终显示在 d 列中。我们观察到 a 列中的值可靠地预测列 c 中的值。

目标是确定列之间的所有此类关系。

天真的解决方案是从所有列对列表开始,(a,b),(a,c),(a,d)......(b,c),(b,d)。 .. 等等。我们将这些称为“符合条件”的列表。

对于这些对中的每一对,我们跟踪对中第一个的值,以及第二个中的对应值。如果我们注意到我们看到第一对中的第一个值相同,但是对中第二个值的值不同,则该对不再符合条件。

这个过程结束时留下的是一组有效的关系。

不幸的是,随着列数的增加,这很快就变得不切实际,因为我们必须存储的数据量是列数的平方数。

有人能想到一种有效的方法吗?

2 个答案:

答案 0 :(得分:0)

我认为你不能改进n列的O(n ^ 2):考虑任何一对之间不存在关系的情况。发现这一点的唯一方法是测试所有对,即O(n ^ 2)。

答案 1 :(得分:0)

我怀疑你最好建立这种关系,而不是削弱它。

您可能需要存储n ^ 2条信息,其中您有n列。例如,如果列永远不会重复(即每行的值不同),则该列会预测所有其他列。如果每列都是这样的,那么每列都会相互预测。您可以使用二维表,例如,按列数索引,如果预测b,则使用pred(a,b)为真。 pred(a,b)可以有3个值中的任何一个:true,false和unknown。

预测关系是可传递的,即如果预测b和b预测c则预测c。如果行数很大,那么检查行是否预测另一行是昂贵的,那么使用传递性来填写你可以做的事情可能是值得的:如果你刚刚计算出pred(a,b)是真的并且你有已经为每个x计算了pred(b,x),那么你可以为pred(b,y)为真的每个y设置pred(a,y)true。

要填写pred(a,。),你可以从a构建一个临时数组对(value,row-index),然后按值排序;这使您可以轻松访问a为常量的索引集。如果这些集合中的每一个都是单个集合,则对于每个b,pred(a,b)为真;否则检查是否预测b(如果它还不知道)你需要检查b在每个索引集(有多个成员)上是否恒定,其中a是常数。

优化可能是如果pred(a,b)为真,并且pred(b,a)为真,那么对于每个c,pred(a,c)当且仅当pred(b,c);因此,在这种情况下,如果你已经填写了pred(b,。),你可以通过复制填写所有pred(a,。)。