Question

我想将OCR识别后的字符串转换为日语文本。

例如，当我提取日期时：

③① 年 ⑫ 月 ①③ 日

我想将其转换为：

31 年 12 月 13 日

实现它的最好方法是什么？

Answer 1

假设您已经在问题中带圆圈的数字上加上了OCR文本，则简单的文本替换就足够了。使用Python的方法如下：

def uncircle(s):
    for i in range(1, 21):
        s = s.replace(chr(0x245f + i), str(i))
    return s.replace('\u24ea', '0')

带圆圈的数字1到20是Unicode代码点0x2460到0x2473，带圆圈的数字0是Unicode代码点0x24ea。

Answer 2

我会使用unicodedata

import unicodedata
print(unicodedata.normalize("NFKC","③① 年 ⑫ 月 ①③ 日"))

结果是这样

31 年 12 月 13 日

这还将转换日语数字的其他变体，即全角数字。

import unicodedata
print(unicodedata.normalize("NFKC","123①②③１２３"))

到

123123123