现在我有大约700000个文件用于标记和拆分语句,并且找到了stanford.nlp.process.DocumentPreprocessor并满足了我的需求。 但是我发现DocumentPreprocessor似乎不支持-ioFileList参数(PTBTokenizer支持它),所以我必须一个一个地解决文件,尽管我在python中使用了多重处理,但它是如此的缓慢。 我想让DocumentPreprocessor更快,有什么建议吗?
答案 0 :(得分:0)
我建议您启动Stanford CoreNLP服务器,然后使用Python发出请求。
这是一个很好的Python库,用于执行此操作:
ImprovedNamingStrategy no longer working in Hibernate 5
您应该只用tokenize,ssplit
就可以建立一个管道,因此不需要使用DocumentPreprocessor类。