Question

我有一个大数据框（14173,3193），包括我们股票的历史价格。

index             A       AA        ...         ZZZ
1962-01-01        nan     nan       ...         nan
...               100     3         ...         nan
2017-08-01        nan     5         ...         12

正如你可以在这个df中看到很多纳米因为有些股票存在于1962年而不是2010年，有些股票在2017年而不是在1962年......

如你所见，我有很多NaN，我想删除它们。

我用月度价格创建了一个newdf，并使用重新采样功能删除了一些nan（例如没有证券交易所的日子）

dftest = df.resample('M').mean()

我现在有一个df =（670,3193）

要删除其他一些我只选择了数据更多的日期

df = df.iloc[470:,:]

并删除带有NaN的列

dftest = dftest.dropna(axis=1)

我的最终df大小是（200,1528）

大量数据丢失。是否有功能可以最大限度地减少数据丢失？我的意思是一个函数来知道我们可以拥有的最大行数和列数？

使用python保存最大数据

0 个答案: