计算每个文档的字符数

时间:2017-08-22 20:22:50

标签: python dataframe text character

我正在处理一个包含数千行短信(dtype = str)及其分类(垃圾邮件或非垃圾邮件)的文档(一个pandas数据帧):



Range                          Name
Electricity!$N$786:$BT$786     DstRng1
Electricity!$N$787:$BT$787     SrcRng1
Electricity!$R$826:$BT$826     DstRng2
Electricity!$R$827:$BT$827     SrcRng2
Efficiency!$H$814              DstRng3
Efficiency!$H$815              SrcRng3
Efficiency!$H$826              DstRng4
Efficiency!$H$827              SrcRng4
Efficiency!$H$846              DstRng5
Efficiency!$H$847              SrcRng5




我想计算每条消息的字符数(即每一行),将它们分成一个单独的列('长度'),求和它们的总和除以len(文档)得到文档的平均长度(字符数)。 在存在非字符空格的情况下获得此统计数据的最有效方法是什么?我是否只对整个数据框中的每个行条目应用len()?

谢谢。

1 个答案:

答案 0 :(得分:2)

试试这个

for row in ('Insert/file/path/here'):
        print (len(row))