Python中的日语数字到阿拉伯数字转换器

时间:2013-02-19 21:57:17

标签: python translation machine-translation

Python中是否有一个开源库可以将汉字数字转换成阿拉伯数字转换/翻译?

输入:10亿2千9百万
产出:1,029,000,000

输入:1亿6,717万2,600
产量:167,172,600

输入:3,139百万
产出:3,139,000,000

日语数字系统:http://en.wikipedia.org/wiki/Japanese_numerals

基于网络的转换器:http://www.sljfaq.org/cgi/kanjinumbers.cgi

2 个答案:

答案 0 :(得分:2)

这应该有效:

import kanjinums
kanjinums.kanji2num("五百十一")

下载并安装kanjinums后,遗憾的是无法通过pip获取。

编辑:这只适用于基本数字,而非上述的复杂情况。

稍作修改,这实际上会起作用,例如:

3139*kanjinums.kanji2num("百万")
3139000000

答案 1 :(得分:1)

这实际上可以在函数中相对容易地完成:

def convert_kanji(self, zahl):
    japnumber = ("兆", "億",  "万")
    jap_factors = {
            "兆": 1000000000000,
            "億": 100000000,
            "万": 10000
            }

    #Define the variables
    converted_number = 0
    already_found = False
    found_kanji_previous = 0

    try: #If the number can be returned as an integer (i.e. no Kanji in it) -> do it
        return(int(zahl)) 
    except ValueError: #If not, disintegrate it
        for key in japnumber: #do it for every Kanji
            if key in zahl: #If it has been found in the original string:
                gef_kanji = zahl.find(key) #mark, which Kanji has been found
                if not already_found: #if it is the first kanji:
                    intermediate_step = int(zahl[:gef_kanji]) * jap_factors[key] #Convert the number in front of the Kanji with the appropriate factor
                    converted_number = intermediate_step
                    already_found = True
                    found_kanji_previous = gef_kanji
                else: #for sll other kanjis
                    intermediate_step = int(zahl[found_kanji_previous+1:gef_kanji]) * jap_factors[key]
                    converted_number = converted_number + intermediate_step #sum them up
                    found_kanji_previous = gef_kanji

        if len(zahl) > (found_kanji_previous+1):
            converted_number = converted_number + int(zahl[found_kanji_previous+1:])
        return converted_number

这仍然比较简单。它只能接受2314兆3424亿3422万2342形式的数字。

此外,代码可能非常糟糕,因为这实际上是我很长一段时间内的第一个程序。但对你来说这可能是一个很好的起点。

我实际上正在研究一种简单的转换器,它可以将日语数字转换成容易阅读的西方数字(例如将231亿转换为“230亿1亿”;它实际上已经这样做了)。我想还有很多工作要做,例如全角字符,数字完全在汉字等。如果我已经解决了所有这些,我可能会像kanjinums一样上传它:D