如何省略用于情感分析的tokenize和ssplit注释器

时间:2016-05-12 21:14:19

标签: nlp stanford-nlp sentiment-analysis

对于文本的情感分析任务,我使用以下注释器来创建管道:

annotators = tokenize,ssplit,parse,sentiment

在阅读了关于注释器的文档后,我意识到tokenize和ssplit将整个文本分解为单独的句子,以便进一步解析。 我目前正在处理的问题是对推文的情绪分析。由于推文大多数时间不超过一行,因此在解析之前使用tokenize和ssplit注释器似乎有点过分。

我试图排除前两个,但它不会让我在线程“main”中发出消息异常java.lang.IllegalArgumentException:annotator“parse”需要注释器“tokenize”

有没有办法避免使用tokenize和ssplit注释器来提高效率?

1 个答案:

答案 0 :(得分:2)

是的,如果您的文本已经被标记化并且您的文件每行有一个句子,则可以告诉标记生成器仅在空格处拆分标记,并且句子拆分器仅在换行符处拆分句子。

标记器的选项为-tokenize.whitespace true,句子拆分器-ssplit.eolonly true的选项。

您可以在tokenizer中找到有关sentence splitterCoreNLP documentation选项的更多信息。