Python NLTK中标记化和普通文本之间的区别

时间:2013-07-18 16:29:29

标签: python nltk tokenize smt moses

我正在使用WordPunct Tokenizer来标记这句话:

في_بيتناكلشيلماتحتاجهيضيع...ادورعلىشاحنفجأةيختفي..لدرجةانياسوينفسيادورشيء

我的代码是:

import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)

我注意到打印输出与输入句子相同,那么为什么要使用标记器呢? 另外,使用令牌文件或普通文本文件创建机器翻译系统(MOSES)会有什么不同吗?

1 个答案:

答案 0 :(得分:0)

令牌器的输出是令牌列表(wordsArray)。你所做的是你再次使用命令将列表中的标记加入到一个字符串中:

print " ".join(wordsArray)

将其替换为:

print wordsArray

关于MOSES的第二个问题不明确,请尝试更具体。