我需要解决核心问题,但输入文本摘自聊天对话,因此,由于两个人之间的对话,目前正在使用的工具( Stanford Corenlp )的准确性很低。
答案 0 :(得分:0)
这是一个域名适应问题,您的输入与预先训练的Corenlp模型位于不同的域中。
解决此问题的最简单方法是在使用Stanford Corenlp之前规范化您的输入(例如使用twitter规范化程序,例如http://www.cs.cmu.edu/~ark/TweetNLP/)。规范化可以帮助一点但不能完全解决问题。
如果您有更多的资源和资金,您可以使用众包来标记您的数据并为此任务培训您自己的模型。