如何使stanford.nlp.process.DocumentPreprocessor更快?

时间:2018-10-29 08:24:26

标签: stanford-nlp

现在我有大约700000个文件用于标记和拆分语句,并且找到了stanford.nlp.process.DocumentPreprocessor并满足了我的需求。   但是我发现DocumentPreprocessor似乎不支持-ioFileList参数(PTBTokenizer支持它),所以我必须一个一个地解决文件,尽管我在python中使用了多重处理,但它是如此的缓慢。   我想让DocumentPreprocessor更快,有什么建议吗?

1 个答案:

答案 0 :(得分:0)

我建议您启动Stanford CoreNLP服务器,然后使用Python发出请求。

这是一个很好的Python库,用于执行此操作:

ImprovedNamingStrategy no longer working in Hibernate 5

您应该只用tokenize,ssplit就可以建立一个管道,因此不需要使用DocumentPreprocessor类。