我有大量的平面文件,我需要计算一些指标。大多数指标都很简单,如行数和列数,很容易实现。给我问题的是平均列大小。
例如。这是一个示例文件
header1|header2|header3|header4|header5
this|is|1|12-Dec-1995|0xFF1
is||57|14-Jan-2014||
如何计算文件的平均列大小。当我执行str.len()时,遇到非字符串列时会给出错误。
感谢您的帮助
答案 0 :(得分:0)
如果按列大小'你的意思是'列宽',那么这应该有效:
df.fillna('').astype(str).apply(lambda x:x.str.len()).mean()
#header1 3.0
#header2 1.0
#header3 1.5
#header4 11.0
#header5 2.5
#dtype: float64
顺便说一下,您的文件还有额外的' |'在最后一行的末尾。