我正在尝试创建一个关键字提取器,该提取器会在工作中遍历一些文档并获取所有主要关键字。对于我的大多数文档而言,它非常有用,因为它们是电子邮件或小型文档,但是我开始收到很多超时的文档。
为解决超时问题,我认为我可以使用句子拆分注释器来构建句子列表,然后一次发送适量的句子。这个想法的唯一问题是服务器告诉我只能容纳100000个字符。
我正在使用服务器API。我该如何更新服务器以容纳更多字符,或者仅获取字符串中最多100000个字符而又不丢失任何信息或句子的完整性(例如,最后不砍掉半个句子)?
注意:This(如何解决StanfordNLP服务器的100K个字符限制?
)不适用于我。我相信它与旧版本有关。无论哪种方式,我都尝试将-maxCharLength -1
添加到我的启动脚本中,但是它什么也没做。
我的启动脚本当前是
java -mx8g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 36000 -quiet true
pause
答案 0 :(得分:1)
如果仅将maxCharLength设置为非常大的数字并使用Stanford CoreNLP 3.9.2,那肯定可以正常工作。我对此进行了测试,并用220000个字符标记了文档。我认为在命令行上运行时,“-1”会引起问题。