Question

我来自SPSS背景，我想在Pandas DataFrame中声明缺失值。

考虑来自李克特量表的以下数据集：

SELECT COUNT(*),v_6 FROM datatable GROUP BY v_6;

| COUNT(*) | v_6  |
+----------+------+
|     1268 | NULL |
|        2 |  -77 |
|     3186 |    1 |
|     2700 |    2 |
|      512 |    3 |
|       71 |    4 |
|       17 |    5 |
|       14 |    6 |

我有一个DataFrame

pdf = psql.frame_query('SELECT * FROM datatable', con)

空值已经声明为NaN - 现在我希望 -77 也是缺失值。

在SPSS中我习惯：

MISSING VALUES v_6 (-77).

不，我正在寻找熊猫对手

我读过：

http://pandas.pydata.org/pandas-docs/stable/missing_data.html

但老实说，我不知道在我的案例中提议的方式是什么......

Answer 1

使用pandas.Series.replace()：

df['v_6'] = df['v_6'].replace(-77, np.NaN)

熊猫遗失数据

1 个答案: