我有一个大数据框(14173,3193),包括我们股票的历史价格。
index A AA ... ZZZ
1962-01-01 nan nan ... nan
... 100 3 ... nan
2017-08-01 nan 5 ... 12
正如你可以在这个df中看到很多纳米因为有些股票存在于1962年而不是2010年,有些股票在2017年而不是在1962年......
如你所见,我有很多NaN,我想删除它们。
我用月度价格创建了一个newdf,并使用重新采样功能删除了一些nan(例如没有证券交易所的日子)
dftest = df.resample('M').mean()
我现在有一个df =(670,3193)
要删除其他一些我只选择了数据更多的日期
df = df.iloc[470:,:]
并删除带有NaN的列
dftest = dftest.dropna(axis=1)
我的最终df大小是(200,1528)
大量数据丢失。是否有功能可以最大限度地减少数据丢失?我的意思是一个函数来知道我们可以拥有的最大行数和列数?