如何标记化以十进制数字分隔的十进制数字。 (点)

时间:2019-05-13 12:49:21

标签: python nltk

我正在使用NLTK标记文本文件,在这种类型的文件中,我具有年龄信息,该信息通常采用以点分隔的十进制数字格式(例如36.11)。

现在,当我对文本进行标记时,会得到如下信息:

number-1 <- "p1" number-2 <- "p1" number-3 <- "p1"

我想知道如何使数字(例如36.11)被视为单个令牌。

编辑:我正在使用PlaintextCorpusReader读取多个文本文件,并用corpus.words()分隔并将它们连接在一起。所以我不能使用word_tokenize(或者至少不知道该怎么做)。

[ '36', '.', '11']

1 个答案:

答案 0 :(得分:0)

这取决于您在nltk中使用的令牌生成器。

如果您使用的是因数word_tokenize,则不应发生这种情况:

>>> from nltk import word_tokenize
>>> word_tokenize('36.11')
['36.11']
>>> word_tokenize('This is the 36.11 number')
['This', 'is', 'the', '36.11', 'number']