我正在尝试根据以下标准创建n列长度为x的向量:
i)每个向量的每个第i个分量(例如,x [i])具有最小值和最大值。最小值和最大值表示为百分比。
ii)每列的总和为1.
iii)我想确保我均匀地对整个空间进行采样。
我编写了以下例程,称为'gen_port',它采用两个向量,包含向量的下界和上界,加上要生成的随机向量的数量(例如,N)。
def gen_port (lower_bound, upper_bound, number):
import random
# Given vector description of minimum and maximum, return an array of 'number' vectors, each of which sums to 100%
# We generate RVs, scale them by upper and lower bounds, then normalize.
values = np.random.random((len(lower_bound),number)) # create big array of RVs.
for n in range (0,number):
for i in range (0, len(lower_bound)):
values[i,n] = np.float(lower_bound[i]+ values[i,n]*(upper_bound[i]-lower_bound[i])) # scale
return values
因此,例如,如果我生成10列向量,这些向量由以下向量描述:
lower_bound = [0.0,0.0,0.0,0.0]
upper_bound = [0.50,0.50,0.50,0.50]
gen_ports(lower_bound, upper_bound, 10)
[Out]
array([[ 0.15749895, 0.21279324, 0.35603417, 0.27367365],
[ 0.2970716 , 0.48189552, 0.04709743, 0.17393545],
[ 0.20367186, 0.47925996, 0.21349772, 0.10357047],
[ 0.29129967, 0.15936119, 0.26925573, 0.28008341],
[ 0.11058273, 0.2699138 , 0.39068379, 0.22881968],
[ 0.21286622, 0.39058314, 0.33895212, 0.05759852],
[ 0.18726399, 0.37648587, 0.32808714, 0.108163 ],
[ 0.03839954, 0.24170767, 0.40299362, 0.31689917],
[ 0.35782691, 0.31928643, 0.24712695, 0.0757597 ],
[ 0.25595576, 0.08776559, 0.16836131, 0.48791733]])
但是,如果lower_bound和upper_bound的值不均匀,我希望能够填充向量。
例如,如果
[In]:
lower_bound = [0.0,0.25,0.25,0.0]
upper_bound = [0.50,0.50,0.75,1.0]
gen_ports(lower_bound, upper_bound, 100000)
结果不总和为1(下面仅包含10个样本):
[Out]:
array([[ 0.16010701, 0.31426425, 0.38776233, 0.1378664 ],
[ 0.00360632, 0.37343983, 0.57538205, 0.0475718 ],
[ 0.28273906, 0.2228893 , 0.1998151 , 0.29455654],
[ 0.06602521, 0.21386937, 0.49896407, 0.22114134],
[ 0.17785613, 0.33885919, 0.25276605, 0.23051864],
[ 0.07223014, 0.19988808, 0.16398971, 0.56389207],
[ 0.14320281, 0.14400242, 0.18276333, 0.53003144],
[ 0.04962725, 0.2578919 , 0.19029586, 0.50218499],
[ 0.01619681, 0.21040566, 0.30615235, 0.46724517],
[ 0.10905285, 0.23641745, 0.40660215, 0.24792755]])
我想生成100,000个场景,以便均匀地对由下边界和上边界定义的空间进行采样。但我很难过,因为当前函数将之后的向量标准化为,它们已经被下限和上限翻译。
所以,我有这个明显的第一个问题 - 如何修改大多数情况下的例程?
另外:
i)这种方法是否正确?例如,我通过这种实施引入任何偏见?
ii)是否有更快和/或更'pythonic'的方法来做到这一点? n = 1,000,000且x = 35
需要大约15分钟答案 0 :(得分:1)
如果您没有要求允许任何下限/上限(或者,如果下限始终为0且上限始终为1)那么答案将是众所周知的Dirichlet分布
https://en.wikipedia.org/wiki/Dirichlet_distribution
链接中有采样python代码。还有一种非常简单的方法可以在最简单的情况下对Dirichlet进行采样,其中\ vec {a} = 1,如果你需要它,我会把它挖出来。但是界限引入了其他问题......
更新
我相信你可以使用拒绝,来自Dirichlet的样本并拒绝任何不适合间隔的东西,但我猜想效率会很低
更新II
在所有\alpha
等于1的情况下找到与Python Dirichlet抽样的链接
答案 1 :(得分:-3)
除非您有绝对需要使用蒙特卡罗模拟的原因,比如这是家庭作业,更有效的方法是使用数值优化器,例如:
from scipy.optimize import minimize
def find_allocations(prices):
"""Find optimal allocations for a portfolio, optimizing Sharpe ratio.
Parameters
----------
prices: DataFrame, daily prices for each stock in portfolio
Returns
-------
allocs: optimal allocations, as fractions that sum to 1.0
"""
def sharpe_ratio(allocs):
# 1e7 is arbitrary for starting portfolio value
port_vals = (prices / prices.ix[0]) * allocs * 1e7
returns = port_vals.pct_change()
avg_daily_ret = returns.means(0)
std_daily_ret = returns.std(0)
return -(252 ** 0.5) * avg_daily_ret / std_daily_ret
n = prices.shape[1]
x0 = [1.0 / n] * n
bounds = [(0.0, 1.0)] * n
constraints = ({'type': 'eq', 'fun': lambda x: 1.0 - np.sum(np.abs(x))})
allocs = minimize(sharpe_ratio, x0, method = 'SLSQP',
bounds = bounds, constraints = constraints)
return allocs.x
注意这是最小化夏普比率的负值,因此实际上最大化夏普比率,如您所愿。根据您要优化的内容,某些目标函数(例如最小方差约束以返回与相等分配相同)具有分析解决方案。