我正在使用崇高的文本编辑器进行编码。
代码:
# coding: utf-8
import nltk
line = "Frau Präsidentin, zu Recht befaßt sich das Parlament regelmäßig mit der Verkehrssicherheit."
print nltk.word_tokenize(line.decode('utf8'))
结果:
[u'Frau', u'Pr', u'\xe4', u'sidentin', u',', u'zu', u'Recht', u'befa', u'\xdf', u't', u'sich', u'das', u'Parlament', u'regelm', u'\xe4', u'\xdf', u'ig', u'mit', u'der', u'Verkehrssicherheit', u'.']
[Finished in 0.4s]
仍然令牌不正确。 因为它将Präsidentin分解为我不想要的子标记。
答案 0 :(得分:0)
根据docs:
这个特殊的标记化器需要安装Punkt句子标记化模型。
我猜你需要这些,它们包括德国模特。 可以在http://www.nltk.org/data.html找到安装这些说明的说明,也可以直接从here下载模型
答案 1 :(得分:0)
这对他来说是正确的。
# coding: utf-8
import nltk
from nltk.tokenize import wordpunct_tokenize
line = "Frau Präsidentin, zu Recht befaßt sich das Parlament regelmäßig mit der Verkehrssicherheit."
print wordpunct_tokenize(line.decode("utf8"))
result:
[u'Frau', u'Pr\xe4sidentin', u',', u'zu', u'Recht', u'befa\xdft', u'sich', u'das', u'Parlament', u'regelm\xe4\xdfig', u'mit', u'der', u'Verkehrssicherheit', u'.']
[Finished in 0.5s]