Stanford Segmenter:如何生成阿拉伯语单词段以及标记/段char开始偏移和长度?

时间:2015-06-13 00:25:57

标签: stanford-nlp

使用斯坦福阿拉伯语单词segmenter,我们想要标记化和分割阿拉伯语文本。 ArabicSegmenter成功地执行了此操作,但结果不保存令牌(CoreLabels)的原始字符偏移量。此外,在ArabicSegmenter类(3.5.2)中使用的ArabicTokenizer的结果具有char偏移(即开始)设置为0的所有标记。

如何获取阿拉伯语单词段以及生成的CoreLables的char偏移量?

1 个答案:

答案 0 :(得分:2)

来自ArabicTokenizer的0字符偏移是由于Github repository中已修复的错误造成的。该修复程序将包含在下一个CoreNLP版本(3.5.3,计划于2015年10月中旬)中。使用此修复程序,CoreLabel返回的tokenize应使用正确的索引标注到原始源文本中,如this test所示。

目前,ArabicSegmenter仍然是一个字符串到字符串的界面,这意味着可能没有一种干净的方法可以从中检索原始字符偏移量。