如何在Python函数最小化中提高速度以找到椭圆方程的解

时间:2018-07-07 09:50:10

标签: python performance scipy minimization convex-optimization

简介

我要使用Python检索一组满足以下方程的描述椭圆的解决方案:

其中H是一个正定矩阵。

为了检索满足任意正定矩阵30维矩阵H和任意y的条件的向量x,我将最小化以下函数:

from scipy.optimize import minimize
import numpy as np

N = 30
H = np.identity(N)
y = 5

def fct(x):
    return np.abs(np.dot(x, np.dot(H, x))-y)

x0 = np.ones(N)/ N
solution = minimize(fct, x0, method='Nelder-Mead')['x']

根据我的研究目标,我想检索许多满足大量(= 500)不同正定矩阵H的条件的解决方案。因此,我将多次使用不同的起始值来最小化该函数。对于每个矩阵H,用x0表示。我想针对该问题定制方法,以便从问题的特殊特征中获得一些性能(就计算时间而言)。

问题分析

我几乎不知道数值优化(有时间的时候计划去潜水),但是在读了一篇有趣的帖子here和一些scipy lectures之后,我得出以下结论:< / p>

  • 考虑到H是一个正定矩阵,我的问题是凸优化之一。
  • 我相信我的问题是不受限制的优化之一。
  • 我不确定我的问题是病还是病。解决方案的确会随着初始值的变化而变化,但是我认为我的问题状况良好。

问题

如果H是一个正定矩阵,我的问题是一个无约束凸优化问题吗?

Nelder-Mead算法确实返回了“有意义”的解决方案。可以利用问题的特征来加快速度吗?还是可能通过使用其他优化算法?我知道可以通过某些方法来提供jacobian和hessian显着提高性能,但是我不确定这是否适用于我的问题。

非常感谢您的帮助。

2 个答案:

答案 0 :(得分:3)

您要解决的问题是一个方程,该方程可以表示为F(x,params)= 0,因此使用root-finding function而不是最小化函数更自然。在这种情况下,您有30个变量和一个方程式,因此该问题的确定性很低,如果使用根查找函数,则必须处理该问题。

方程式定义了正定二次形式的level set,因此您(如您所指出的那样)知道解的集合是一个(超)椭圆体。您可以利用这种结构轻松地在椭球上生成点,而无需求助于数值求解器。

不难生成的三组点是:椭球与坐标轴相交的点;椭圆体相对于坐标轴的极值(即边界框与椭圆体相切的点);椭圆的主轴线与椭圆相交的点。您还可以通过首先在单位超球面上生成随机点,然后将这些点转换为椭圆体,来在椭圆体上生成随机点。脚本中也对此进行了演示。最后,如果x是解决方案,那么-x也是如此。 (该事实未在脚本中使用。)

这是一个创建上述点集的脚本。我使用10个变量而不是30个变量来限制打印输出的数量。

import numpy as np
from scipy.linalg import sqrtm
from scipy.stats import ortho_group


#--------------------------------------------
# Generate example input
#--------------------------------------------

dim = 10

# Create a positive definite matrix H with shape (dim, dim).
# evals is the vector of eigenvalues of H.  This can be replaced
# with any vector of length `dim` containing positive values.
evals = (np.arange(1, dim + 1)/2)**2
# Use a random orthogonal matrix to generate H.
R = ortho_group.rvs(dim)
H = R.T.dot(np.diag(evals).dot(R))

# y determines the level set to be computed.
y = 3.0

#--------------------------------------------
# Compute various points on the ellipsoid
#--------------------------------------------

Hinv = np.linalg.inv(H)

# Ellipsoid intercepts of the coordinate axes
xintercepts = np.diag(np.sqrt(y / np.diag(Hinv)))

# Ellipsoid coordinate extrema
xextrema = H.dot(np.diag(np.sqrt(y / np.diag(H))))

# Ellipsoid intersections with principal axes
evals, evecs = np.linalg.eigh(Hinv)
xprincipal = np.sqrt(y/evals)*evecs

# Generate random points on the ellipsoid.
# The distribution of the random points is not uniform on the ellipsoid.
nsample = 5
r = np.random.randn(H.shape[0], nsample)
# u contains random points on the hypersphere with radius 1.
u = r / np.linalg.norm(r, axis=0)
xrandom = sqrtm(H).dot(np.sqrt(y)*u)

#--------------------------------------------
# Print results
#--------------------------------------------

np.set_printoptions(precision=4, linewidth=120)

print("Columns are the ellipsoid coordinate axis intercepts:")
print(xintercepts)
print("Check:", np.array([x.dot(Hinv.dot(x)) for x in xintercepts.T]))

print()

print("Columns are points where the ellipsoid is tangent to its bounding box:")
print(xextrema)
print("Check:", np.array([x.dot(Hinv.dot(x)) for x in xextrema.T]))

print()

print("Columns are points where the principal axes of the ellipsoid intersect the ellipsoid:")
print(xprincipal)
print("Check:", np.array([x.dot(Hinv.dot(x)) for x in xprincipal.T]))

print()

print("Columns are random points on the ellipsoid:")
print(xrandom)
print("Check:", np.array([x.dot(Hinv.dot(x)) for x in xrandom.T]))

这是脚本运行时的输出。 H是随机的,因此每次运行脚本时输出都会不同。每个矩阵之后以Check:开头的行显示了每一列的x.dot(Hinv.dot(x))计算结果。 Check:之后显示的值应全部为y(具有较小的公差以允许正常的数值不精确度。)

Columns are the ellipsoid coordinate axis intercepts:
[[ 2.9341  0.      0.      0.      0.      0.      0.      0.      0.      0.    ]
 [ 0.      2.752   0.      0.      0.      0.      0.      0.      0.      0.    ]
 [ 0.      0.      2.0081  0.      0.      0.      0.      0.      0.      0.    ]
 [ 0.      0.      0.      4.3061  0.      0.      0.      0.      0.      0.    ]
 [ 0.      0.      0.      0.      3.4531  0.      0.      0.      0.      0.    ]
 [ 0.      0.      0.      0.      0.      1.7946  0.      0.      0.      0.    ]
 [ 0.      0.      0.      0.      0.      0.      3.5877  0.      0.      0.    ]
 [ 0.      0.      0.      0.      0.      0.      0.      1.8925  0.      0.    ]
 [ 0.      0.      0.      0.      0.      0.      0.      0.      1.2435  0.    ]
 [ 0.      0.      0.      0.      0.      0.      0.      0.      0.      2.9075]]
Check: [ 3.  3.  3.  3.  3.  3.  3.  3.  3.  3.]

Columns are points where the ellipsoid is tangent to its bounding box:
[[ 4.2205 -1.6619  0.9486 -1.0971  0.0672  0.0988  2.0569 -0.2758  0.4345 -1.1246]
 [-2.392   6.0745 -0.1126  0.262   0.1952  0.7275 -1.829  -3.3036  0.3353 -0.4161]
 [ 1.2413 -0.1023  5.5224 -1.9892  1.3277  0.6662  0.6003 -2.6505 -1.0728  0.65  ]
 [-1.3493  0.2239 -1.8697  5.1908  0.0367 -0.9623  0.1469  1.5594 -0.3419  0.4431]
 [ 0.0917  0.1851  1.385   0.0407  5.7611 -2.3986  0.884   0.1803 -2.3425 -1.4966]
 [ 0.1385  0.7082  0.7134 -1.0963 -2.4621  5.9136 -2.6088 -0.8365  4.7242 -0.2406]
 [ 2.5176 -1.5554  0.5615  0.1462  0.7926 -2.2789  5.1657  0.0131 -1.8862 -0.0804]
 [-0.3829 -3.1874 -2.8128  1.7606  0.1834 -0.829   0.0149  5.8607 -1.2844  2.1692]
 [ 0.4579  0.2456 -0.8642 -0.293  -1.8089  3.5539 -1.6244 -0.9749  4.4486 -1.8706]
 [-1.4002 -0.3599  0.6185  0.4485 -1.3651 -0.2138 -0.0818  1.945  -2.2096  5.2549]]
Check: [ 3.  3.  3.  3.  3.  3.  3.  3.  3.  3.]

Columns are points where the principal axes of the ellipsoid intersect the ellipsoid:
[[-0.4701  1.1006 -3.008   1.1252 -0.8771  0.3136 -1.0045  2.0293  0.2615 -0.0509]
 [ 3.2968  1.5837  4.3875 -0.4139 -0.9073 -0.2182 -1.6669  0.5303 -0.3532  0.2126]
 [ 0.9165  3.6613 -1.9066 -2.764   1.0091  1.727   0.7535  0.1335 -0.5318  0.3281]
 [-1.5272 -1.9226  2.4674  1.0623 -0.8445  3.5199  0.6734  0.3716  0.018  -0.0609]
 [-2.2736  3.3975  1.2729  1.3181  3.3424  0.6659 -1.0468 -0.2749  0.5697 -0.0946]
 [ 4.6168 -2.0728 -1.9233 -0.4141  1.2233  1.3196 -1.3411 -0.447  -0.3202 -0.3887]
 [-2.7789  1.8796 -1.6604  0.6303 -2.7613  0.7791 -1.534  -1.2874 -0.1734  0.0563]
 [-3.7189 -3.8936 -0.3987 -0.0928  1.7785 -0.2127 -1.1247  0.2619 -0.7321  0.3339]
 [ 3.2782 -1.6147 -1.2554  1.8212  0.203   0.5629 -0.1255 -0.4354  0.8151  0.5622]
 [-1.3981 -1.6701  0.4087 -4.573  -0.423   0.279  -0.8141  0.0621  0.9307 -0.0114]]
Check: [ 3.  3.  3.  3.  3.  3.  3.  3.  3.  3.]

Columns are random points on the ellipsoid:
[[ 1.5979 -1.8849  0.4878 -1.8069 -0.8968]
 [-0.6583 -0.304   0.5729 -0.6411  1.1796]
 [-0.857  -1.0776  1.4855 -2.2664 -1.6846]
 [ 0.1828  0.3555  2.4142  2.7053  3.0825]
 [-0.4522  0.6217  3.8429 -2.4424  0.0587]
 [-0.6646 -2.4867 -0.3544  2.0967 -2.9529]
 [-1.0759 -1.2378  0.7088 -0.561   0.2613]
 [ 2.6662  2.862   0.3385  0.9958  0.821 ]
 [-1.0947 -3.0513 -0.9832  2.4314 -1.6179]
 [ 0.9955  2.3737  0.14   -0.1343 -1.0845]]
Check: [ 3.  3.  3.  3.  3.]

答案 1 :(得分:1)

如果H是正定的,那么您提供的问题肯定是不受约束的凸。这是因为正定矩阵的逆也是正定的,因此,当采用雅可比行列式时,会得到H逆加H逆转置,这本身就是正半定的(请参见herehere )。由于这种凸性,我建议您使用像CVXPY这样的凸求解器。 CVXPY也有很多不同的求解器选项,因此您可以从this list尝试不同的QP选项,看看哪个具有最佳的运行时间(尽管这里可能是与输入有关的问题)。