我有一个数据框,其中大多数列都是varchar / object类型。色谱柱的长度变化很大,可能在3 - 1000+范围内。现在,对于每一列,我想测量最大长度。
我知道如何计算col的最大长度。如果它的varchar那么:
max(df.char_col.apply(len))
如果它的编号(float8或int64)则为:
max(df.num_col.map(str).apply(len))
但我的数据框有数百列,我想同时计算所有列的最大长度。问题是,有不同的数据类型,我不知道如何一次完成所有。
问题1:如何获得数据框中每列的最大列长
现在我尝试仅使用以下代码对varchar / object类型列执行此操作:
xx = df.select_dtypes(include = ['object'])
for col in [xx.columns.values]:
maxlength = [max(xx.col.apply(len))]
我只选择了对象类型列并尝试编写for循环。但它不起作用。可能在for循环中使用apply()并不是一个好主意。
问题2:如何仅为对象类型列获取每列的最大长度
示例数据框:
d1 = {'name': ['john', 'tom', 'bob', 'rock', 'jimy'], 'DoB': ['01/02/2010', '01/02/2012', '11/22/2014', '11/22/2014', '09/25/2016'], 'Address': ['NY', 'NJ', 'PA', 'NY', 'CA'], 'comment1': ['Very good performance', 'N/A', 'Need to work hard', 'No Comment', 'Not satisfactory'], 'comment2': ['good', 'Meets Expectation', 'N', 'N/A', 'Incompetence']}
df1 = pd.DataFrame(data = d1)
df1['month'] = pd.DatetimeIndex(df1['DoB']).month
df1['year'] = pd.DatetimeIndex(df1['DoB']).year
答案 0 :(得分:5)
一种解决方案是使用numpy.vectorize
。这可能比基于pandas
的解决方案更有效。
您可以使用pd.DataFrame.select_dtypes
选择object
列。
import pandas as pd
import numpy as np
df = pd.DataFrame({'A': ['abc', 'de', 'abcd'],
'B': ['a', 'abcde', 'abc'],
'C': [1, 2.5, 1.5]})
measurer = np.vectorize(len)
所有列的最大长度
res1 = measurer(df.values.astype(str)).max(axis=0)
array([4, 5, 3])
对象列的最大长度
res2 = measurer(df.select_dtypes(include=[object]).values.astype(str)).max(axis=0)
array([4, 5])
或者如果你需要输出作为字典:
res1 = dict(zip(df, measurer(df.values.astype(str)).max(axis=0)))
{'A': 4, 'B': 5, 'C': 3}
df_object = df.select_dtypes(include=[object])
res2 = dict(zip(df_object, measurer(df_object.values.astype(str)).max(axis=0)))
{'A': 4, 'B': 5}
答案 1 :(得分:2)
查找数据框中所有列(任何类型)的最大字符数:
for column in df:
print(column,"->", df[column].astype(str).str.len().max())
工作相当快,我在 8000 万行 df 上使用它。
答案 2 :(得分:1)
这里有一些很好的答案,我想贡献我的力量
解决方案:
dict([(v, df[v].apply(lambda r: len(str(r)) if r!=None else 0).max())for v in df.columns.values])
说明:
#convert tuple to dictionary
dict(
[
#create a tuple such that (column name, max length of values in column)
(v, df[v].apply(lambda r: len(str(r)) if r!=None else 0).max())
for v in df.columns.values #iterates over all column values
])
示例输出
{'name': 4, 'DoB': 10, 'Address': 2, 'comment1': 21, 'comment2': 17}
答案 3 :(得分:1)
使用str和len方法后可以使用min max
df["A"].str.len().max()
df["A"].str.len().min()
df["Column Name"].str.len().max()
df["Column Name"].str.len().min()
答案 4 :(得分:0)
仅选择对象类型列
df2 = df1[[x for x in df1 if df1[x].dtype == 'O']]
获取每列中的最大长度
max_length_in_each_col = df2.applymap(lambda x: len(x)).max()
答案 5 :(得分:0)
我尝试了numpy.vectorize,但它为大型数据帧提供了 “内存错误” 。
以下代码对我来说非常合适。它将为您提供Excel电子表格中每列的最大长度列表(使用熊猫读入数据框)
import pandas as pd
xl = pd.ExcelFile('sample.xlsx')
df = xl.parse('Sheet1')
maxColumnLenghts = []
for col in range(len(df.columns)):
maxColumnLenghts.append(max(df.iloc[:,col].astype(str).apply(len)))
print('Max Column Lengths ', maxColumnLenghts)