python:从字符串中删除流浪字节

时间:2018-12-09 08:26:18

标签: python

我有一个在网上抓取的字符串,如下所示:

  

“ trackingId”:“ f <0x85>©9 \ u0004 + L <0x9b> <0x91> \ u001A <0x87>&\ u0013i + T”},{“ pendingInvitation”:false

如何从字符串中删除杂散字节<0x85><0x9b><0x91><0x87>

1 个答案:

答案 0 :(得分:2)

您可以使用regex

import re

s = '"trackingId":"f<0x85>©9\u0004+L<0x9b><0x91>\u001A<0x87>&\u0013i+T"},{"pendingInvitation":false'
print(s)
print(re.sub(r'<0x\w{2}>', '',s))

输出:

"trackingId":"f<0x85>©9+L<0x9b><0x91><0x87>&i+T"},{"pendingInvitation":false
"trackingId":"f©9+L&i+T"},{"pendingInvitation":false

我已经搜索了<0x__>的模板,其中__是长度为2的任何字符或数字。