Question

如何有效地将包含反斜杠的多行字符串拆分，从而将不需要的转义符转换为单独的行？

以下是我正在处理的示例输入：

strInput = '''signalArr(0)="ASCB D\axx\bxx\fxx\nxx"
signalArr(1)="root\rxx\txx\vxx"'''

我已经尝试了这个（将单个反斜杠转换为double。因此反斜杠转义具有优先权，后续字符将被“正常”处理）：

def doubleBackslash(inputString):
    inputString.replace('\\','\\\\')
    inputString.replace('\a','\\a')
    inputString.replace('\b','\\b')
    inputString.replace('\f','\\f')
    inputString.replace('\n','\\n')
    inputString.replace('\r','\\r')
    inputString.replace('\t','\\t')
    inputString.replace('\v','\\v')
    return inputString

strInputProcessed = doubleBackslash(strInput)

我想得到：

lineList = strInputProcessed.splitlines()

>> ['signalArr(0)="ASCB D\axx\bxx\fxx\nxx"','signalArr(1)="root\rxx\txx\vxx"']

我得到了什么：

>> ['signalArr(0)="ASCB D\x07xx\x08xx', 'xx', 'xx"', 'signalArr(1)="root', 'xx\txx', 'xx"']

Answer 1

尝试将输入存储为原始字符串，然后所有'\ n'字符将自动转义：

>>> var = r'''abc\n
... cba'''
>>> print var
abc\n
cba
>>> var.splitlines()
['abc\\n', 'bca']

（注意'。之前的 r 。这表示字符串是原始的）

作为额外的，如果您希望转义现有字符串，而不是上面执行的替换命令，则可以使用带有'string-escape'的编码。

>>> s = 'abc\nabc\nabc'
>>> s.encode('string-escape')
'abc\\nabc\\nabc'

并且如果需要，您可以撤消字符串的字符串转义。

>>> s.decode('string-escape')

最后，我想在你的背景中添加：

>>> strInput = r'''signalArr(0)="ASCB D\axx\bxx\fxx\nxx"
... signalArr(1)="root\rxx\txx\vxx"'''
>>> strInput.splitlines()
['signalArr(0)="ASCB D\\axx\\bxx\\fxx\\nxx"', 'signalArr(1)="root\\rxx\\txx\\vxx"']

即使打印字符串上存在额外的\，它们实际上并不存在于内存中。迭代字符串将证明这一点，因为它不会给你一个额外的\字符，用于逃避。

>>> s = r'\a\b\c'
>>>
>>> for c in s:
...  print c
\
a
\
b
\
c
>>> list(s)
['\\', 'a', '\\', 'b', '\\', 'c']

包含反斜杠的多行字符串的Python 3.5分割线

1 个答案: