使用python保存最大数据

时间:2017-10-27 00:11:45

标签: python pandas

我有一个大数据框(14173,3193),包括我们股票的历史价格。

index             A       AA        ...         ZZZ
1962-01-01        nan     nan       ...         nan
...               100     3         ...         nan
2017-08-01        nan     5         ...         12

正如你可以在这个df中看到很多纳米因为有些股票存在于1962年而不是2010年,有些股票在2017年而不是在1962年......

如你所见,我有很多NaN,我想删除它们。

我用月度价格创建了一个newdf,并使用重新采样功能删除了一些nan(例如没有证券交易所的日子)

dftest = df.resample('M').mean()

我现在有一个df =(670,3193)

要删除其他一些我只选择了数据更多的日期

df = df.iloc[470:,:]

并删除带有NaN的列

dftest = dftest.dropna(axis=1)

我的最终df大小是(200,1528)

大量数据丢失。是否有功能可以最大限度地减少数据丢失?我的意思是一个函数来知道我们可以拥有的最大行数和列数?

0 个答案:

没有答案