我正在寻找使用预定义功能的垃圾邮件过滤器的精确度和召回
使用预定义函数时,我无法让它们返回除值1.0以外的任何内容。
我知道这不正确,因为我应该得到0.529411764706的精确结果。
另外,我使用pop因为某些原因每个列表的第一个条目不是数字,所以我不能使用append(int(...
这是功能:
def precision(ref, hyp):
"""Calculates precision.
Args:
- ref: a list of 0's and 1's extracted from a reference file
- hyp: a list of 0's and 1's extracted from a hypothesis file
Returns:
- A floating point number indicating the precision of the hypothesis
"""
(n, np, ntp) = (len(ref), 0.0, 0.0)
for i in range(n):
if bool(hyp[i]):
np += 1
if bool(ref[i]):
ntp += 1
return ntp/np
def recall(ref, hyp):
"""Calculates recall.
Args:
- ref: a list of 0's and 1's extracted from a reference file
- hyp: a list of 0's and 1's extracted from a hypothesis file
Returns:
- A floating point number indicating the recall rate of the hypothesis
"""
(n, nt, ntp) = (len(ref), 0.0, 0.0)
for i in range(n):
if bool(ref[i]):
nt += 1
if bool(hyp[i]):
ntp += 1
return ntp/nt
这是我的代码:
import hw10_lib
from hw10_lib import precision
from hw10_lib import recall
actual = []
for line in open("/path/hw10.ref", 'r'):
actual.append(line.strip().split('\t')[-1])
actual.pop(0)
predicted = []
for line in open("/path/hw10.hyp", 'r'):
predicted.append(line.strip().split('\t')[-1])
predicted.pop(0)
prec = precision(actual, predicted)
rec = recall(actual, predicted)
print ('Precision: ', prec)
print ('Recall: ', rec)
答案 0 :(得分:1)
您正在将字符串视为函数中的数字。 如果字符串不为空,则测试bool(aString)将始终为true。
将有效字段转换为float,然后再将它们传递给函数,或者在循环遍历值时将函数转换为函数。
bool("0") # True
bool("1") # True
如果一切都是真的那么1/1 == 1和100/100 == 1
还要记住划分浮点数而不是整数,以保持浮点精度。
for i in range(n):
if float(hyp[i]):
np += 1.0
if float(ref[i]):
ntp += 1.0
return ntp/np
您也可以将值正确地附加到原始列表中:
for line in open("/path/hw10.ref", 'r'):
try:
val = float(line.strip().split('\t')[-1])
except:
continue
actual.append(val)
然后你将只有有效的浮动,不需要弹出。