如何解决StanfordNLP服务器的100K字符限制?

时间:2017-10-11 01:09:45

标签: stanford-nlp

我正在尝试用StanfordNLP解析书本长度的文本块。 http请求工作得很好,但是对于文本长度有一个不可配置的100KB限制,在StanfordCoreNLPServer.java中为MAX_CHAR_LENGTH。

目前,我正在将文本发送到服务器之前将其删除,但即使我尝试在句子和段落之间进行分割,也会在这些块之间丢失一些有用的共享信息。据推测,我可以解析大块重叠的块并将它们链接在一起,但这似乎(1)不优雅,(2)像相当多的维护。

是否有更好的方法来配置服务器或请求以删除手动分块或保留跨块的信息?

顺便说一句,我正在使用python请求模块进行POST,但我怀疑这有什么不同,除非corenlp python包装器以某种方式处理这个问题。

1 个答案:

答案 0 :(得分:1)

您应该可以使用标记-maxCharLength -1启动服务器,并且将删除句子长度限制。请注意,这在生产中是不可取的:任意大的文档可能会消耗任意大量的内存(和时间),尤其是像coref这样的东西。

服务器的选项列表应该可以通过-help调用服务器来访问,并且是documented in code here