Question

我试图在一种表格中格式化文本并将结果写入文件，但我对齐时遇到问题，因为我的源码有时包含Unicode字符＆＃39; ZERO WIDTH SPACE＆＃39 ;或者在python中\u200b。请考虑以下代码示例：

str_list = ("a\u200b\u200b", "b", "longest entry\u200b")
format_str = "|{string:<{width}}| output of len(): {length}\n"

max_width = 0
for item in str_list:
    if len(item) > max_width:
        max_width = len(item)

with open("tmp", mode='w', encoding="utf-8") as file:
    for item in str_list:
        file.write(format_str.format(string=item,
                                     width=max_width,
                                     length=len(item)))

＆＃39; tmp＆＃39;的内容在上面的脚本运行之后：

|a           | output of len(): 3
|b             | output of len(): 1
|longest entry| output of len(): 14

所以这看起来像len()不会导致打印宽度＆＃39;字符串，str.format()不知道如何处理零宽度字符。

或者，这种行为是有意的，我需要做其他事情。

要清楚，我正在寻找一种方法来获得这样的结果：

|a            | output of len(): 1
|b            | output of len(): 1
|longest entry| output of len(): 13

如果没有破坏我的来源，我更愿意这样做。

Answer 1

wcwidth包有一个函数if，它返回字符单元格中字符串的宽度：

wcswidth()

from wcwidth import wcswidth length = len('sneaky\u200bPete') # 11 width = wcswidth('sneaky\u200bPete') # 10和wcswidth(s)之间的差异可用于纠正len(s)引入的错误。修改上面的代码：

str.format()

...产生这个输出：

from wcwidth import wcswidth

str_list = ("a\u200b\u200b", "b", "longest entry\u200b")
format_str = "|{s:<{fmt_width}}| width: {width}, error: {fmt_error}\n"

max_width = max(wcswidth(s) for s in str_list)

with open("tmp", mode='w', encoding="utf-8") as file:
    for s in str_list:
        width = wcswidth(s)
        fmt_error = len(s) - width
        fmt_width = max_width + fmt_error
        file.write(format_str.format(s=s,
                                     fmt_width=fmt_width,
                                     width=width,
                                     fmt_error=fmt_error))

它还为包括双宽字符的字符串生成正确的输出：

|a            | width: 1, error: 2
|b            | width: 1, error: 0
|longest entry| width: 13, error: 1

str_list = ("a\u200b\u200b", "b", "㓵", "longest entry\u200b")

如何从len（），str.format（）和零宽度空间获得合理的结果？

1 个答案: