我看过NLTK的语料库部分,但似乎并不是一个数字语料库。我想将单词数字改为文本。例如:
输入:one thousand two hundred forty three
输出:1243
输入:second
输出:2
输入:five percent
输出:0.05
答案 0 :(得分:2)
没有。你需要做的是建立这个Is there a way to convert number words to Integers?或你认为有用/更容易合作的其他人。
首先,您需要正则表达式来提取感兴趣的字符串(例如one
,two
...),然后使用上面的代码替换。
您给出的第一个示例将是三个中最简单的一个,最后一个示例只是将该数字除以100,因为输出实际上是一个整数。第二个将是有点棘手,因为你将不得不修改代码或可能创建一个全新的功能。
AFAIK,没有可以解析整个文本的模块。
我进一步研究的另一种可能性是使用Tree Parser中的CD
标记来帮助识别数字。但是你仍然需要一个类似于上面提到的功能。