algorithm - 计算一百万个注释的F分数的最快方法是什么？

时间：2015-11-06 22:23:40

标签： algorithm machine-learning

想象一下，你想在有限数量的句子中预测某些“事件”（编码为：0,1,2,3，...，N）（编码为：0,1,2，...， S）一系列论文（编码为0,1，...，P）。

您的机器学习算法返回以下文件：

paper,position,event 0,0,22 0,12,38 0,15,18 0,23,3 1,1064,25 1,1232,36 ...

并且您希望根据类似的地面实况数据文件计算F分数：

paper,true_position,true_event 0,0,22 0,12,38 0,15,18 0,23,3 1,1064,25 1,1232,36 ...

由于您有很多论文和数百万个文件，因此计算每篇论文的F分数的最快方法是什么？

PS请注意，没有任何东西可以保证这两个文件的位置数相同，ml算法可能会错误地识别出不属于真实情况的位置。

答案 0 :(得分：1)

只要两个文件中的条目对齐，以便您可以直接逐行比较，我就不明白为什么在O（n）时间内处理数百万行的速度会很慢，即使在笔记本电脑上也是如此。< / p>