熊猫遗失数据

时间:2013-12-06 11:04:46

标签: python pandas

我来自SPSS背景,我想在Pandas DataFrame中声明缺失值。

考虑来自李克特量表的以下数据集:

SELECT COUNT(*),v_6 FROM datatable GROUP BY v_6;

| COUNT(*) | v_6  |
+----------+------+
|     1268 | NULL |
|        2 |  -77 |
|     3186 |    1 |
|     2700 |    2 |
|      512 |    3 |
|       71 |    4 |
|       17 |    5 |
|       14 |    6 |

我有一个DataFrame

pdf = psql.frame_query('SELECT * FROM datatable', con)

空值已经声明为NaN - 现在我希望 -77 也是缺失值。

在SPSS中我习惯:

MISSING VALUES v_6 (-77).

不,我正在寻找熊猫对手

我读过:

http://pandas.pydata.org/pandas-docs/stable/missing_data.html

但老实说,我不知道在我的案例中提议的方式是什么......

1 个答案:

答案 0 :(得分:3)

使用pandas.Series.replace()

df['v_6'] = df['v_6'].replace(-77, np.NaN)