Question

我有下面的代码，它从CSV文件中提取数据，并且我想对数据集中的变量之一进行一些分析。该变量是一种对象数据类型，它具有许多缺失值。因此，我正在使用pd.to_numeric将它们转换为NaN。然后，我创建了一些bin（1、2、3、4、5）以对变量的值进行分类。但是，我想将NaN作为类别或bin包括在新变量（“ variable_q”）中。例如作为“无数据”类别。那可能吗？我该怎么办？我错过了什么吗？

import pandas as pd
import numpy as np

data=pd.read_csv("dataset.csv")

data["variable"]=pd.to_numeric(data["variable"],errors="coerce")

data["variable_q"]=pd.cut(x=data["variable"],bins=[1,2,3,4,5],labels=["Low","Moderate","High","Extremely High"])

非常感谢您！

Answer 1

好吧，我正在对变量进行频率分布，我刚刚意识到在以下代码中添加dropna = False作为自变量即可解决问题。

已创建一个NaN类别！因此无需在上面的代码中添加“无数据”类别。

data [“ variable_q”]。value_counts（sort = False，dropna = False）

Python 3-熊猫-数据丢失和分箱值

1 个答案: