我有一个在网上抓取的字符串,如下所示:
“ trackingId”:“ f <0x85>©9 \ u0004 + L <0x9b> <0x91> \ u001A <0x87>&\ u0013i + T”},{“ pendingInvitation”:false
如何从字符串中删除杂散字节<0x85>
,<0x9b>
,<0x91>
和<0x87>
?
答案 0 :(得分:2)
您可以使用regex
:
import re
s = '"trackingId":"f<0x85>©9\u0004+L<0x9b><0x91>\u001A<0x87>&\u0013i+T"},{"pendingInvitation":false'
print(s)
print(re.sub(r'<0x\w{2}>', '',s))
输出:
"trackingId":"f<0x85>©9+L<0x9b><0x91><0x87>&i+T"},{"pendingInvitation":false
"trackingId":"f©9+L&i+T"},{"pendingInvitation":false
我已经搜索了<0x__>
的模板,其中__
是长度为2的任何字符或数字。