NLTK,读取字数以浮动数字

时间:2015-10-26 02:06:18

标签: python nltk

我看过NLTK的语料库部分,但似乎并不是一个数字语料库。我想将单词数字改为文本。例如:

输入:one thousand two hundred forty three输出:1243

输入:second输出:2

输入:five percent输出:0.05

1 个答案:

答案 0 :(得分:2)

没有。你需要做的是建立这个Is there a way to convert number words to Integers?或你认为有用/更容易合作的其他人。

首先,您需要正则表达式来提取感兴趣的字符串(例如onetwo ...),然后使用上面的代码替换。

您给出的第一个示例将是三个中最简单的一个,最后一个示例只是将该数字除以100,因为输出实际上是一个整数。第二个将是有点棘手,因为你将不得不修改代码或可能创建一个全新的功能。

AFAIK,没有可以解析整个文本的模块。

我进一步研究的另一种可能性是使用Tree Parser中的CD标记来帮助识别数字。但是你仍然需要一个类似于上面提到的功能。