有没有办法可以将df.describe()应用于DataFrame中的隔离列。
例如,如果我有多个列并使用df.describe() - 它将返回并描述所有列。从研究中,我了解到我可以添加以下内容:
"类似于dtypes的列表:将结果限制为提供的数据类型。要将结果限制为数字类型,请提交numpy.number。要将其限制为对象列,请提交numpy.object数据类型。 字符串也可以用于select_dtypes的样式(例如df.describe(include = [' O']))。要选择pandas分类列,请使用'类别'"
但是我不太清楚如何用python代码写出来。 提前谢谢。
答案 0 :(得分:4)
只需在方形布料中添加列名称:
df['column_name'].describe()
示例:强>
获取单列:
df['1']
获取列数:
df[['1','2']]
获取单行:
df.loc['B']
按行名称或df.iloc[o]
按索引。
获取精确化字段:
df['1']['C']
答案 1 :(得分:0)
import pandas as pd
data = pd.read_csv("ad.data", header=None)
data[111].describe()
或者例如
lastindice = data[data .columns[-1]]
lastindice.describe()
答案 2 :(得分:0)
import pandas as pd
data=pd.read_csv('data.csv')
data[['column1', 'column2', 'column3']].describe()
答案 3 :(得分:0)
用表格来描述
df[['column_name']].describe()
将其描述为数据
df['column_name'].describe()
答案 4 :(得分:-1)
在Pyspark DataFrame中,您只能像这样描述一列:
df.describe("col1").toPandas()
或类似的几列:
df.describe(["col1", "col2"]).toPandas()