我们正在尝试选择在我们的注释管道中使用的标记生成器。目前,我正在使用一些推特文本测试PTBTokenizer。 在我们的数据中,我们有一些文本,在句子最后一个点之后没有空格:“这是一个测试。还有一些。” PTBTokenizer不会将“test”,“。”,“And”识别为单独的令牌,而是将“test.And”作为单个令牌。在tokenizer中是否有任何选项或设置使得它将句子最终标点符号识别为单个标记,即使它后面没有空格?
谢谢。
答案 0 :(得分:0)
并非所有点都是最终标点符号。例如“例如,美国,公司”等等,这是一个真正的NLP问题,需要一些努力才能解决。这就是我没有在点周围插入空间的原因。 感谢。