当我为德语创建字典时,我在制作令牌方面遇到了一些问题

时间:2015-06-26 11:16:38

标签: python-2.7 deep-learning

我正在使用崇高的文本编辑器进行编码。

代码:

# coding: utf-8
import nltk
line = "Frau Präsidentin, zu Recht befaßt sich das Parlament regelmäßig mit der Verkehrssicherheit."
print nltk.word_tokenize(line.decode('utf8'))

结果:

[u'Frau', u'Pr', u'\xe4', u'sidentin', u',', u'zu', u'Recht', u'befa', u'\xdf', u't', u'sich', u'das', u'Parlament', u'regelm', u'\xe4', u'\xdf', u'ig', u'mit', u'der', u'Verkehrssicherheit', u'.']
[Finished in 0.4s]

仍然令牌不正确。 因为它将Präsidentin分解为我不想要的子标记。

2 个答案:

答案 0 :(得分:0)

根据docs

  

这个特殊的标记化器需要安装Punkt句子标记化模型。

我猜你需要这些,它们包括德国模特。 可以在http://www.nltk.org/data.html找到安装这些说明的说明,也可以直接从here下载模型

答案 1 :(得分:0)

这对他来说是正确的。

# coding: utf-8
import nltk
from nltk.tokenize import wordpunct_tokenize

line = "Frau Präsidentin, zu Recht befaßt sich das Parlament regelmäßig mit der Verkehrssicherheit."
print wordpunct_tokenize(line.decode("utf8"))

result:
[u'Frau', u'Pr\xe4sidentin', u',', u'zu', u'Recht', u'befa\xdft', u'sich', u'das', u'Parlament', u'regelm\xe4\xdfig', u'mit', u'der', u'Verkehrssicherheit', u'.']
[Finished in 0.5s]