Question

我有一个子集和问题，您可以在其中添加或减去这些术语。例如，如果我有五个术语（1,2,3,4,5），我想知道有多少种方法可以添加/减去7中的术语：

3 + 4
2 + 5
1 + 2 + 4
5 - 2 + 4
等

我在Python中编写了一些代码，但是一旦有很多术语，它就会很慢：

import itertools
from collections import OrderedDict

sum_answer = 1
terms = {"T1": 1, "T2": -2, "T3": 3, "T4": -4, "T5": 5}
numlist = [v for v in terms.values()]
zerlist = [x for x in itertools.repeat(0, len(numlist))]
opslist = [item for item in itertools.product((1, -1), repeat=len(numlist))]


res_list = []
for i in range(1, len(numlist)):
    combos = itertools.combinations(numlist, i)

    for x in combos:
        prnlist = list(x) + zerlist[:len(numlist) - len(x)]

        for o in opslist:
            operators = list(o)
            result = []
            res_sum = 0

            for t in range(len(prnlist)):
                if operators[t] == 1:
                    ops = "+"
                else:
                    ops = "-"
                if prnlist[t] != 0:
                    result += [ops, list(terms.keys())[list(terms.values()).index(prnlist[t])]]
                res_sum += operators[t] * prnlist[t]

            if sum_answer == res_sum:
                res_list += [" ".join(result)]

for ans in OrderedDict.fromkeys(res_list).keys():
    print(ans)

我意识到一百万个嵌套循环非常低效，那么有什么部分可以用更好的算法加速吗？

Answer 1

类似于“常规”子集求和问题 - 您使用DP来解决问题，您也可以在这里使用它，但需要有一个更多的可能性 - 减少当前元素而不是添加它。

f(0,i) = 1               //successive subset
f(x,0) = 0    x>0        //failure subset
f(x,i) = f(x+element[i],i-1) + f(x-element[i],i-1) + f(x,i-1)
                                 ^^^
               This is the added option for substraction

将其翻译为自下而上的DP解决方案时，您需要创建一个大小为(SUM+1) * (2n+1)的矩阵，其中SUM是所有元素的总和，n是数字元件。

Answer 2

我认为你的想法大多是正确的：生成条款的每个组合，做总和，看看它是否是一个打击。您可以优化代码。

问题在于，一旦您生成1 + 2，就会发现它与您所需的金额不匹配并将其丢弃。但是，如果您向其添加4，那么它就是一个解决方案。在您生成1 + 2 + 4之前，当您从头开始计算总和时，您将无法获得该解决方案。您还可以为每个组合生成从头开始添加运算符的可能性，出于同样的原因，这也可以执行大量冗余工作。

您还使用了很多列表操作，这可能很慢。

我会这样做：

def solve(terms_list, stack, current_s, desired_s):
    if len(terms_list) == 0:
        if current_s == desired_s:
            print(stack)
        return

    for w in [0, 1, -1]: # ignore term (0), add it (1), subtract it (-1)
        stack.append(w)
        solve(terms_list[1:], stack, current_s + w * terms_list[0], desired_s)
        stack.pop()

例如，初始调用是solve([1,2,3,4,5], [], 0, 7)。

请注意，这具有复杂性O(3^n)（有点，继续阅读），因为每个术语都可以添加，减去或忽略。

我实际实现的复杂性是O(n*3^n)，因为递归调用会复制terms_list参数。但是你可以避免这种情况，但我想让代码更简单，并将其作为练习。您也可以在打印之前避免构造实际表达式，然后逐步构造它，但您可能需要更多参数。

然而，O(3^n)仍然很多，无论你做什么，你都不应期望它对大n做得很好。

Answer 3

现在你试图对一行中所有可能的字段值组合进行暴力破解（然后对每个组合进行有效性测试）。

我认为你有很多行数据可供使用;我建议你通过采取一堆行（至少与你要求的字段一样多）来应用它，并应用像numpy.linalg.lstsq这样的近似矩阵求解器。

这有许多重要的优点：

允许您理智地处理舍入错误问题（如果您的任何字段是非整数，则必需）
可让您轻松处理系数不在{-1, 0, 1}的字段，即系数可能类似于0.12的税率
使用您不必调试或维护的完全支持的代码
使用高度优化的代码，运行速度会快得多（**最有可能，取决于你的numpy编译的选项）
具有极其好的时间复杂度（类似于O（n ** 2.8）而不是O（3 ** n）），这意味着它应该扩展到更多的字段

所以，一些测试数据：

import numpy as np

# generate test data
def make_test_data(coeffs, mean=20.0, base=0.05):
    w      = len(coeffs)    # number of fields
    h      = int(1.5 * w)   # number of rows of data
    rows   = np.random.exponential(mean - base, (h, w)) + base
    totals = data.dot(coeffs)
    return rows.round(2), totals.round(2)

给了我们像

这样的东西

>>> rows, totals = make_test_data([0, 1, 1, 0, -1, 0.12])

>>> print(rows)
[[  1.45  17.63  22.54   5.54  37.06   1.47]
 [ 11.71  80.43  26.43  18.48  11.08   8.8 ]
 [ 16.09  11.34  63.74   3.31  13.2   13.35]
 [ 11.96  12.17  10.23   8.15  73.3    0.42]
 [  4.03   8.01  20.84  21.46   2.76  18.98]
 [  3.24   6.6   35.06  23.17   9.03   8.58]
 [ 25.05  33.72   6.82   0.49  46.76  12.21]
 [ 70.27   1.48  23.05   0.69  31.11  43.13]
 [  9.04  10.45  15.08   4.32  52.94  11.13]]

>>> print(totals)
[  3.29  96.84  63.48 -50.85  28.37  33.66  -4.75  -1.4  -26.07]

和解算器代码，

>>> sol = np.linalg.lstsq(rows, totals)    # one line!

>>> print(sol[0])       # note the solutions are not *exact*
[ -1.485730e-04  1.000072e+00  9.999334e-01 -7.992023e-05 -9.999552e-01  1.203379e-01]

>>> print(sol[0].round(3))      # but they are *very* close
[ 0.    1.    1.    0.   -1.    0.12]

带减法的子集和算法

3 个答案: