我正在使用WordPunct Tokenizer来标记这句话:
في_بيتناكلشيلماتحتاجهيضيع...ادورعلىشاحنفجأةيختفي..لدرجةانياسوينفسيادورشيء
我的代码是:
import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)
我注意到打印输出与输入句子相同,那么为什么要使用标记器呢? 另外,使用令牌文件或普通文本文件创建机器翻译系统(MOSES)会有什么不同吗?
答案 0 :(得分:0)
令牌器的输出是令牌列表(wordsArray
)。你所做的是你再次使用命令将列表中的标记加入到一个字符串中:
print " ".join(wordsArray)
将其替换为:
print wordsArray
关于MOSES的第二个问题不明确,请尝试更具体。