我一直在努力计算句子中标点符号的百分比。由于某种原因,我的函数在进行双倍间距时可以工作,但会计算所有字符和空白。例如,我有一个文本DEACTIVATE: OK
,因此当我减去标点符号时,总全长为14,则长度为13,因此百分比应为1/13 = 7.63%
,但是,我的函数给了我7.14%,这基本上是1/14 = 7.14%
。
另一方面,如果只有一个空格,我的函数会抛出错误
"ZeroDivisionError: division by zero".
这是我的代码供您参考和简单的文本示例
text= "Centre to position, remaining shift is still larger than maximum (retry nbr=1, centring_stroke.r=2.7662e-05, max centring stroke.r=2.5e-05)"
text2= "DEACTIVATE: KU-1421"
导入字符串
def count_punct(text):
count = sum([1 for char in text if char in string.punctuation])
return round(count/(len(text) - text.count(" ")), 3)*100
df_sub['punct%'] = df_sub['Err_Text2'].apply(lambda x: count_punct(x))
df_sub.head(20)
答案 0 :(得分:2)
在这里,进行一些小的更改,您的count_punct
函数应该已启动并正在运行。.代码中断的原因是因为您正在检查___
而不是_
。即3个连续的空格而不是一个空格。这就是为什么差异总是导致相同的值的原因。
import string
def count_punct(text):
if text.strip() == "": # To take of care of all space input
return 0
count = sum([1 if char in string.punctuation else 0 for char in text ])
spaces = text.count(" ") # Your error is here, Only check for 1 space instead of 3 spaces
total_chars = len(text) - spaces
return round(count / total_chars, 3)*100
text= "DEACTIVATE: OK"
print(count_punct(text))
输出:
7.7
对于零除以错误。当total_chars为0时,这是一个逻辑错误,因为字符串的length
和number of spaces
相等。因此,差异为0。
要解决此问题,您只需添加if语句(已在上面添加)
if text.strip() == "":
print(0)