将未标记的语料库转换为标记语(NLTK)

时间:2011-07-22 01:24:39

标签: python nltk stop-words

我有一个明文语料库,我想标记和保存,所以我可以进一步使用它。最好的方法是什么?

我已经制作了我的标记器,但是我无法找到一种方法来改变不凌乱的语料库

2 个答案:

答案 0 :(得分:1)

查看其他标记语料库,例如brown,以获取输出示例。这将让您了解标记语料库应该是什么样子。接下来,加载您的语料库(使用PlaintextCorpusReader)并迭代句子,标记每个句子。然后通过从标记的句子中创建一个字符串将每个标记的句子写入文件,如' '.join([tuple2str(t) for t in tagged_sent])(在执行from nltk.tag.util import tuple2str之后)。只要你的代码正确完成工作,你的代码就是“杂乱无章”。你不是在寻找一个优雅的算法,你正在运行一个非常具体的脚本来创建自定义语料库。

答案 1 :(得分:0)

您是在进行简单的单字组标记,还是在实际解析文本?我相信NLTK会解析/标记每个令牌的输出是(令牌,PoS)。存储语料库的元组数组是不可接受的吗?为什么你觉得这个混乱?