我正在使用一个小的Python脚本来生成一些将在C头中使用的二进制数据。
这个数据应该声明为char[]
,如果它可以被编码为一个字符串(当它们不在ASCII可打印字符范围内时具有相关的转义序列)以保持标题比使用十进制或十六进制数组编码更紧凑。
问题在于,当我打印Python字符串的repr
时,它由单引号分隔,而C不喜欢它。天真的解决方案是:
'"%s"'%repr(data)[1:-1]
但是当数据中的一个字节恰好是双引号时,这不起作用,所以我也需要它们进行转义。
我认为一个简单的replace('"', '\\"')
可以完成这项工作,但也许有更好的,更加pythonic的解决方案。
加分:
将数据分成大约80个字符的行也很方便,但是大小为80的splitting the source string in chunks的简单方法也不会起作用,因为每个不可打印的字符在2个或3个字符中逃脱序列。在获取repr之后将列表拆分为80 的块也无济于事,因为它可能会划分转义序列。
有什么建议吗?
答案 0 :(得分:7)
最好不要破解repr()
,但从一开始就使用正确的编码。您可以使用编码string_escape
>>> "naïveté".encode("string_escape")
'na\\xc3\\xafvet\\xc3\\xa9'
>>> print _
na\xc3\xafvet\xc3\xa9
为了转义“-quotes我认为在转义后使用简单的替换编码字符串是一个完全明确的过程:
>>> '"%s"' % 'data:\x00\x01 "like this"'.encode("string_escape").replace('"', r'\"')
'"data:\\x00\\x01 \\"like this\\""'
>>> print _
"data:\x00\x01 \"like this\""
答案 1 :(得分:7)
如果您要求python str
为其repr
,我认为引用的类型不是真正可配置的。从python 2.6.4源代码树中的PyString_Repr
函数:
/* figure out which quote to use; single is preferred */
quote = '\'';
if (smartquotes &&
memchr(op->ob_sval, '\'', Py_SIZE(op)) &&
!memchr(op->ob_sval, '"', Py_SIZE(op)))
quote = '"';
所以,如果字符串中有单引号,我想使用双引号,但如果字符串中有双引号,则不要使用双引号。
我会尝试编写自己的类来包含字符串数据而不是使用内置字符串来执行此操作。一种选择是从str
派生一个类并编写自己的repr
:
class MyString(str):
__slots__ = []
def __repr__(self):
return '"%s"' % self.replace('"', r'\"')
print repr(MyString(r'foo"bar'))
或者,根本不要使用repr
:
def ready_string(string):
return '"%s"' % string.replace('"', r'\"')
print ready_string(r'foo"bar')
如果字符串中已经存在转义引号,那么这种简单的引用可能不会做“正确”的事情。
答案 2 :(得分:5)
您可以尝试json.dumps
:
>>> import json
>>> print(json.dumps("hello world"))
"hello world"
>>> print(json.dumps('hëllo "world"!'))
"h\u00ebllo \"world\"!"
我不确定json字符串是否与C兼容,但至少它们有一个非常大的公共子集,并且保证与javascript兼容;)。
答案 3 :(得分:4)
repr()不是你想要的。存在一个基本问题:repr()可以使用可以作为Python求值的字符串的任何表示来生成字符串。从理论上讲,这意味着它可能决定使用任何在C中无效的其他结构,例如“”“long strings”“”。
这段代码可能是正确的方向。我使用140的默认包装,这对于2009年是一个合理的值,但是如果你真的想要将代码包装到80列,只需更改它。
如果unicode = True,则输出一个L“wide”字符串,可以有意义地存储Unicode转义符。或者,您可能希望将Unicode字符转换为UTF-8并将其输出转义,具体取决于您使用它们的程序。
def string_to_c(s, max_length = 140, unicode=False):
ret = []
# Try to split on whitespace, not in the middle of a word.
split_at_space_pos = max_length - 10
if split_at_space_pos < 10:
split_at_space_pos = None
position = 0
if unicode:
position += 1
ret.append('L')
ret.append('"')
position += 1
for c in s:
newline = False
if c == "\n":
to_add = "\\\n"
newline = True
elif ord(c) < 32 or 0x80 <= ord(c) <= 0xff:
to_add = "\\x%02x" % ord(c)
elif ord(c) > 0xff:
if not unicode:
raise ValueError, "string contains unicode character but unicode=False"
to_add = "\\u%04x" % ord(c)
elif "\\\"".find(c) != -1:
to_add = "\\%c" % c
else:
to_add = c
ret.append(to_add)
position += len(to_add)
if newline:
position = 0
if split_at_space_pos is not None and position >= split_at_space_pos and " \t".find(c) != -1:
ret.append("\\\n")
position = 0
elif position >= max_length:
ret.append("\\\n")
position = 0
ret.append('"')
return "".join(ret)
print string_to_c("testing testing testing testing testing testing testing testing testing testing testing testing testing testing testing testing testing", max_length = 20)
print string_to_c("Escapes: \"quote\" \\backslash\\ \x00 \x1f testing \x80 \xff")
print string_to_c(u"Unicode: \u1234", unicode=True)
print string_to_c("""New
lines""")