应用错误收集

Stanford Segmenter：如何生成阿拉伯语单词段以及标记/段char开始偏移和长度？

时间：2015-06-13 00:25:57

标签： stanford-nlp

使用斯坦福阿拉伯语单词segmenter，我们想要标记化和分割阿拉伯语文本。 ArabicSegmenter成功地执行了此操作，但结果不保存令牌（CoreLabels）的原始字符偏移量。此外，在ArabicSegmenter类（3.5.2）中使用的ArabicTokenizer的结果具有char偏移（即开始）设置为0的所有标记。

如何获取阿拉伯语单词段以及生成的CoreLables的char偏移量？

1 个答案:

答案 0 :(得分：2)

来自ArabicTokenizer的0字符偏移是由于Github repository中已修复的错误造成的。该修复程序将包含在下一个CoreNLP版本（3.5.3，计划于2015年10月中旬）中。使用此修复程序，CoreLabel返回的tokenize应使用正确的索引标注到原始源文本中，如this test所示。

目前，ArabicSegmenter仍然是一个字符串到字符串的界面，这意味着可能没有一种干净的方法可以从中检索原始字符偏移量。