我正在尝试用德语对一堆采访进行POS标签。使用Tiger-Corpus的“ ClassifierBasedGermanTagger”取得了很好的效果。我将标记的结果另存为.txt文件,但是由于某些有关转录质量的问题,我想回到文件中并对单词或标记进行一些修改。有没有简单的方法可以在python中做到这一点?
到目前为止,我尝试了nltk.corpus.reader function
,但我什至不敢确定这样做是否合适。我使用代码对str2tuple函数进行了进一步的设置:
[nltk.tag.str2tuple(t) for t in sent.split()]
但是它总是会分裂单词和标签
这是.txt文件的格式:
('word','tag'),('word','tag'),('word','tag'),...