Question

我正在处理日语文本，我有2个要求。

例如：东京都中央区晴海1丁目8番11号

预期输出：东京都中央区晴海<1>丁目<8>番<11>号。所有<>都应包含双字节字符

例如： ＡＤＯＲＥＳ，Ｉｎｃ．。

预期输出： ADORES，INC。

我正在从包含近300列的csv文件中读取此数据，只有3列需要这些操作，其余应保持不变。

我从网上获得了以下代码，但它引发错误。 raw_comp_name包含csv中的数据。 raw_comp_name.encode(encoding='utf-8').decode('ascii')

Answer 1

信息

日语字符具有以下标准。双字节字符的宽度是普通字母字符的两倍。

您可以从this link获取更多详细信息。

答案

您可以使用此jaconv | pip模块。它具有单字节到双字节以及双字节到单字节功能。查看来自模块documentation link

的更多详细信息

下面附有示例代码：

>>> Insert item: "1"
a_list = ['1']
>>> Insert item: "2"
a_list = ['1','2']
>>> Insert item: "3"
a_list = ['1','2','3']