我试图使用GATE检测句子,更具体地说是使用ANNIE SentenceSplitter或RegexSentenceSplitter。
RegexSentenceSplitter似乎运行良好,但唯一的问题是在文档的每个新页面的开头创建了一个新的句子注释。 (分析的文件是PDF)。
是否可以更改RegexSentenceSplitter的此行为?
答案 0 :(得分:1)
您可以尝试使用条件语料库管道。此方法允许您根据文档上的功能值运行PR(此处为RegExSentenceSplitter)。
此处有更多详情:https://gate.ac.uk/sale/tao/splitch3.html#x6-480003.8.2