POS标记太慢 - 使用OpenNLP

时间:2015-04-11 20:58:21

标签: opennlp pos-tagger

我正在使用词性标注,并开始使用OpenNLP。

我使用以下代码加载模型(Java):

        m_modelFile = new FileInputStream("c:\\DATA\\en-parser-chunking.bin");
        m_model = new ParserModel(m_modelFile);
        m_parser = ParserFactory.create(m_model);  
        ...
        Parse topParses[] = ParserTool.parseLine(sentence, m_parser, 1);

我注意到创建ParserModel对象的调用非常慢。可能是b / c en-parser-chunking.bin的大小是35MB。有没有更好的方法来使用它,以便它不是这么慢?或者,您推荐使用POS标记器还是调用API的方式更快?

我一直在玩准确性,而且非常好。但是,我对加载模型时的性能不满意......

谢谢你们。

1 个答案:

答案 0 :(得分:0)

如果您正在寻找快速Java(或Python)POS标记器,您可以考虑使用RDRPOSTagger。 RDRPOSTagger是一个功能强大,易于使用且与语言无关的POS和形态标记工具包。它在学习和标记过程中获得了快速的性能。例如在Java中,使用具有Core2Duo 2.4 GHz的计算机,标记速度为90K英语单词/秒。与最先进的结果相比,它实现了极具竞争力的准确性。请参阅this paper中13种语言的实验结果,包括效果速度和标记准确性。