Question

我正在使用崇高的文本编辑器进行编码。

代码：

# coding: utf-8
import nltk
line = "Frau Präsidentin, zu Recht befaßt sich das Parlament regelmäßig mit der Verkehrssicherheit."
print nltk.word_tokenize(line.decode('utf8'))

结果：

[u'Frau', u'Pr', u'\xe4', u'sidentin', u',', u'zu', u'Recht', u'befa', u'\xdf', u't', u'sich', u'das', u'Parlament', u'regelm', u'\xe4', u'\xdf', u'ig', u'mit', u'der', u'Verkehrssicherheit', u'.']
[Finished in 0.4s]

仍然令牌不正确。因为它将Präsidentin分解为我不想要的子标记。

Answer 1

根据docs：

这个特殊的标记化器需要安装Punkt句子标记化模型。

我猜你需要这些，它们包括德国模特。可以在http://www.nltk.org/data.html找到安装这些说明的说明，也可以直接从here下载模型

Answer 2

这对他来说是正确的。

# coding: utf-8
import nltk
from nltk.tokenize import wordpunct_tokenize

line = "Frau Präsidentin, zu Recht befaßt sich das Parlament regelmäßig mit der Verkehrssicherheit."
print wordpunct_tokenize(line.decode("utf8"))

result:
[u'Frau', u'Pr\xe4sidentin', u',', u'zu', u'Recht', u'befa\xdft', u'sich', u'das', u'Parlament', u'regelm\xe4\xdfig', u'mit', u'der', u'Verkehrssicherheit', u'.']
[Finished in 0.5s]

当我为德语创建字典时，我在制作令牌方面遇到了一些问题

2 个答案: