Question

我正在使用sklearn-crfsuite执行NER。我正在尝试将按实体提及案例的实体提及情况报告为真实肯定（预测和预期正确，即使没有实体也是如此），错误肯定（预测说是，预期否）或否定否定（预测说不，预期是））。

除了基于标记/令牌的摘要统计信息之外，我看不到如何获得NER性能。

我可以用不同的方式对实体进行分组，例如：正确，不正确，部分，丢失，虚假。我可以自己编写一堆代码来尝试完成此操作（可能必须这样做），但是必须调用一个电话才能获得此信息？

以下是获取摘要统计信息的一些调用：

from sklearn import metrics
report = metrics.classification_report(targets, predictions,
                                       output_dict=output_dict)
precision = metrics.precision_score(targets, predictions,
                                    average='weighted')
f1 = metrics.f1_score(targets, predictions, average='weighted')
accuracy = metrics.accuracy_score(targets, predictions)

Answer 1

要获得您提到的指标（即正确，不正确，部分，缺失，伪造）并不是一件容易的事，我认为这些指标与SemEval'13挑战引入的指标相同。

我还需要根据这些指标报告一些结果，并最终自己进行编码：

detailed explanation of these metrics
my own code implementation（对于SO帖子来说实在太多了）

我正在与其他人一起工作，我们计划将其作为软件包发布，可以轻松地与开源NER系统集成和/或读取标准格式（如CoNLL）。随时加入并帮助我们：）

如何在Sklearn-Crfsuite中获取错误的NER预测

1 个答案: