计算一百万个注释的F分数的最快方法是什么?

时间:2015-11-06 22:23:40

标签: algorithm machine-learning

想象一下,你想在有限数量的句子中预测某些“事件”(编码为:0,1,2,3,...,N)(编码为:0,1,2,..., S)一系列论文(编码为0,1,...,P)。

您的机器学习算法返回以下文件:

paper,position,event 0,0,22 0,12,38 0,15,18 0,23,3 1,1064,25 1,1232,36 ...

并且您希望根据类似的地面实况数据文件计算F分数:

paper,true_position,true_event 0,0,22 0,12,38 0,15,18 0,23,3 1,1064,25 1,1232,36 ...

由于您有很多论文和数百万个文件,因此计算每篇论文的F分数的最快方法是什么?

PS请注意,没有任何东西可以保证这两个文件的位置数相同,ml算法可能会错误地识别出不属于真实情况的位置。

1 个答案:

答案 0 :(得分:1)

只要两个文件中的条目对齐,以便您可以直接逐行比较,我就不明白为什么在O(n)时间内处理数百万行的速度会很慢,即使在笔记本电脑上也是如此。< / p>