我很难理解这个错误,因为我会给你一个工作的例子和我感兴趣的 / em>的
我必须分析一组数据,其中包含一整年的小时价格,称为sys_prices
,在进行各种转换后,它是一个{87}行(1列)的numpy.ndarray
对象,并且每一行都是numpy.ndarray
项,只有一个元素,numpy.float64
个数字。
代码不的工作原理如下:
stop_day = 95
start_day = stop_day - 10 # 10 days before
stop_day = (stop_day-1)*24
start_day = (start_day-1)*24
pcs=[] # list of prices to analyse
for ii in range(start_day, stop_day):
pcs.append(sys_prices[ii][0])
p, x = np.histogram(pcs, bins='fd')
*24
部分是调整数据集中的索引,以便遵守每小时的分辨率。
我希望将列表pcs
提供给直方图方法,以便将直方图和bin边缘的值输入 p 和分别是 x 。
我说我希望如此,因为以下代码有效:
start_day = 1
start_month = 1
start_year = 2016
stop_day = 1
stop_month = 2
stop_year = 2016
num_prices = (date(stop_year, stop_month, stop_day) - date(start_year, start_month, start_day)).days*24
jan_prices = []
for ii in range(num_prices):
jan_prices.append(sys_prices[ii][0])
p, x = np.histogram(jan_prices, bins='fd') # bin the data`
代码的不同之处在于,工作实例仅在从一年中所选日期开始向后的任意时段内分析10天,而工作示例使用1月份的所有价格(例如,第一天)数据集的744个值。
奇怪的(r)事物:我为stop_day
使用了不同的值,似乎95引发了错误,而99或100或200 不是
你能帮帮我吗?
答案 0 :(得分:4)
我解决了,我无法发现的数据集中只有一个NaN。
对于那些想知道如何发现它的人,我只是使用这段代码来找到项目的索引:
nanlist=[]
for ii in range(len(array)):
if numpy.isnan(array[ii]):
nanlist.append(ii)
array
是您的容器。
答案 1 :(得分:0)
之所以会出现此问题,是因为默认情况下,直方图使用min(pcs)和max(pcs)来确定bin的最小和最大范围,但是由于数据集中包含nan,因此min和max变为nans。您可以使用np.nanmin
和np.nanmax
作为范围参数来解决此问题。
p, x = np.histogram(pcs, range=(np.nanmin(pcs), np.nanmax(pcs)) bins='fd')
我认为这比公认的答案更好,因为它不需要修改pc。