使用斯坦福阿拉伯语单词segmenter,我们想要标记化和分割阿拉伯语文本。 ArabicSegmenter成功地执行了此操作,但结果不保存令牌(CoreLabels)的原始字符偏移量。此外,在ArabicSegmenter类(3.5.2)中使用的ArabicTokenizer的结果具有char偏移(即开始)设置为0的所有标记。
如何获取阿拉伯语单词段以及生成的CoreLables的char偏移量?
答案 0 :(得分:2)
来自ArabicTokenizer
的0字符偏移是由于Github repository中已修复的错误造成的。该修复程序将包含在下一个CoreNLP版本(3.5.3,计划于2015年10月中旬)中。使用此修复程序,CoreLabel
返回的tokenize
应使用正确的索引标注到原始源文本中,如this test所示。
目前,ArabicSegmenter
仍然是一个字符串到字符串的界面,这意味着可能没有一种干净的方法可以从中检索原始字符偏移量。