我正在处理日语文本,我有2个要求。
例如:东京都中央区晴海1丁目8番11号
预期输出:东京都中央区晴海<1>丁目<8>番<11>号。所有<>都应包含双字节字符
例如: ADORES,Inc .。
预期输出: ADORES,INC。
我正在从包含近300列的csv文件中读取此数据,只有3列需要这些操作,其余应保持不变。
我从网上获得了以下代码,但它引发错误。 raw_comp_name
包含csv中的数据。
raw_comp_name.encode(encoding='utf-8').decode('ascii')
答案 0 :(得分:0)
日语字符具有以下标准。双字节字符的宽度是普通字母字符的两倍。
您可以从this link获取更多详细信息。
您可以使用此jaconv | pip模块。它具有单字节到双字节以及双字节到单字节功能。查看来自模块documentation link
的更多详细信息下面附有示例代码:
>>> Insert item: "1"
a_list = ['1']
>>> Insert item: "2"
a_list = ['1','2']
>>> Insert item: "3"
a_list = ['1','2','3']