我有这个风速数据集,包括以m / s为单位的风速,我想计算时间序列中非零数据的周期。
每个非零数据周期都算作一个“天气事件”。
我还想知道这些事件在数据集中的位置(即索引)。
执行此操作的一种方法是在序列中的每组非零数据之前计算前0,以确定事件数,然后将每个索引值加1以获取事件的位置。
if(nwb.equalsIgnoreCase("numbers")){
System.out.println("You must type in the rules verbatim "+
"(word for word, including punctuation), "+
"as shown on the Student Hand-Out. "+
"Capitalization does not matter.");
int count = 1;
for(int i = 0; i<=(rules.length-1); i++){
System.out.print("Rule #"+count);
String response = console.nextLine().replaceAll(" ","");
if(response.replaceAll(" ", "").equalsIgnoreCase(rules[i].replaceAll(" ", ""))){
System.out.println("CORRECT");
}else{
System.out.println("WRONG\nThe correct wording is: "+rules[i]);
}
count++;
}
}
然而,我遇到# create mock data.
d=np.zeros([209])
d1=np.random.randn(189)
d2=np.zeros(9)
d3=np.random.randn(281)
d4=np.zeros(27)
d5=np.random.randn(21)
d6=np.zeros(155)
d7=np.random.randn(58)
mock_data=np.concatenate((d,d1,d2,d3,d4,d5,d6,d7),axis=0)
indices=np.squeeze(np.array(np.where(mock_data!=0))) # Returns the position vector of every non-zero in the record.
# create a vector to store the positions of the previous zero before each SAW event.
dummy=np.zeros(0)
for i in range(len(indices)):
dummy=np.append(dummy,indices[i]-1)
dummy=dummy.astype(int)
dummy=np.int64(dummy)
zerovalue=np.squeeze(np.array(np.where(mock_data[dummy]==0))) # Should return the position of the previous zero before each SAW event.
# Add 1 to each value in zerovalue
new_index=np.zeros(0)
for i in range(len(zerovalue)):
new_index=np.append(date_index,zerovalue[i]+1)
没有返回我期待的索引的问题。它不是返回指示非零数据组的第一个值所在的索引,而是返回看似随机的索引。
例如,第一个索引应该是209,但我得到0.非常感谢任何帮助。
答案 0 :(得分:3)
让我们从清理您的代码开始:
你不需要挤压阵容;只需从where
结果中提取第一个元素:
indices = np.where(mock_data)[0]
# array([209, 210, 211, 212, 213, ... 945, 946, 947, 948])
NumPy可以进行矢量化计算,因此您不需要循环来创建dummy
:
dummy = indices - 1
对于zero_value
,你也可以省略挤压和数组转换;但是这次你想要零元素,所以比较必须保持:
zerovalue = np.where(mock_data[dummy] == 0)[0]
# array([ 0, 189, 470, 491])
NumPy再次对您的计算进行矢量化:
new_index = zerovalue + 1
现在解释一下,也许你会发现它出错的地方:
indices
是你测量风的点。dummy
是你再次测量风的前一天(没有风的最后一天)zerovalue
是测量风的累积天数(您可以检查在没有可测风的情况下开始测量风的指数)。因为你在风中停下来,最终会忽视风的最后几天。如果你想在没有风的情况下至少有一天找到风的第一天,你需要保持你的阵列结构:
mock_data != 0 # boolean array where you measured wind
np.diff(mock_data != 0) # boolean array which has True between no-wind and wind.
np.where(np.diff(mock_data != 0))[0] # array with indexes where it changed
# array([208, 397, 406, 687, 714, 735, 890], dtype=int64)
这不是最终结果,因为你还有从刮风天到大风天的变化,所以你丢弃每一个元素
np.where(np.diff(mock_data != 0))[0][0::2]
# array([208, 406, 714, 890], dtype=int64)
np.where(np.diff(mock_data != 0))[0][0::2] + 1 # with the +1
# array([209, 407, 715, 891], dtype=int64)
如果您对刮风天的结束感兴趣,只需将其与[1::2]
切片:
np.where(np.diff(mock_data != 0))[0][1::2] + 1
# array([398, 688, 736], dtype=int64)