想象一下,你想在有限数量的句子中预测某些“事件”(编码为:0,1,2,3,...,N)(编码为:0,1,2,..., S)一系列论文(编码为0,1,...,P)。
您的机器学习算法返回以下文件:
paper,position,event
0,0,22
0,12,38
0,15,18
0,23,3
1,1064,25
1,1232,36
...
并且您希望根据类似的地面实况数据文件计算F分数:
paper,true_position,true_event
0,0,22
0,12,38
0,15,18
0,23,3
1,1064,25
1,1232,36
...
由于您有很多论文和数百万个文件,因此计算每篇论文的F分数的最快方法是什么?
PS请注意,没有任何东西可以保证这两个文件的位置数相同,ml算法可能会错误地识别出不属于真实情况的位置。
答案 0 :(得分:1)
只要两个文件中的条目对齐,以便您可以直接逐行比较,我就不明白为什么在O(n)时间内处理数百万行的速度会很慢,即使在笔记本电脑上也是如此。< / p>