我们正在读取POSSample字符串{即posSampleObject.toString()}。自然地,每个令牌都有其pos标签作为后缀。有没有一种方法可以从这种文件输入中恢复句子和标签?除非必须这样做,否则我们不想通过逐字提取POS标签后缀来重新发明轮子。
如果没有现成的解决方案,这就是我们要记住的:
(0) Read string from file
(1) Tokenize the string
(2) Extract the trailing suffix
(3) Store the prefix in the sentence[] array
(4) Store the suffix (after dropping the additional "_" character) in the tags[] array
如前所述,我们宁愿重用现有的解决方案,而不是提出自己的解决方案。