Pandas:仅在数据帧的开头和结尾删除NaN

时间:2015-07-20 06:55:56

标签: python pandas time-series dataframe nan

我有一个看起来像这样的pandas DataFrame:

       sum
1948   NaN
1949   NaN
1950     5
1951     3
1952   NaN
1953     4
1954     8
1955   NaN

我想在开头和结尾处切断NaN s(即只保留1950年至1954年的值NaN)。 我已经尝试了.isnull()dropna(),但不知怎的,我找不到合适的解决方案。 有人可以帮忙吗?

3 个答案:

答案 0 :(得分:20)

使用专为此设计的内置first_valid_indexlast_valid_index并切片df:

In [5]:

first_idx = df.first_valid_index()
last_idx = df.last_valid_index()
print(first_idx, last_idx)
df.loc[first_idx:last_idx]
1950 1954
Out[5]:
      sum
1950    5
1951    3
1952  NaN
1953    4
1954    8

答案 1 :(得分:2)

以下是Numpy的方法:

import numpy as np

x    = np.logical_not(pd.isnull(df))
mask = np.logical_and(np.cumsum(x)!=0, np.cumsum(x[::-1])[::-1]!=0)

In [313]: df.loc[mask['sum'].tolist()]

Out[313]:
      sum
1950    5
1951    3
1952  NaN
1953    4
1954    8

答案 2 :(得分:1)

这是一种方法。

import pandas as pd

# your data
# ==============================
df

      sum
1948  NaN
1949  NaN
1950    5
1951    3
1952  NaN
1953    4
1954    8
1955  NaN

# processing
# ===============================
idx = df.fillna(method='ffill').dropna().index
res_idx = df.loc[idx].fillna(method='bfill').dropna().index
df.loc[res_idx]

      sum
1950    5
1951    3
1952  NaN
1953    4
1954    8