所以假设我写了一个方法,将一个文本文件编码成一些看起来像
的乱码 úÎúÞ<81>i<82>ran<81><83>there<81><84>with<85>carol<86>we<81><87>did
我对如何重新放入正常的文本文件有所了解
i ran there with carol we did
开头的字符只是魔术数字,但我只是想检查一下魔术数字并将这些单词取回到一个忽略数字的文件中。
答案 0 :(得分:2)
re.split
将执行此操作:
import re
s='úÎúÞ<81>i<82>ran<81><83>there<81><84>with<85>carol<86>we<81><87>did'
L = re.split(r'<[\d<>]+>',s)
print(L)
print(' '.join(L[1:]))
输出:
['úÎúÞ', 'i', 'ran', 'there', 'with', 'carol', 'we', 'did']
i ran there with carol we did
答案 1 :(得分:1)
使用re
提取><
:
s = "úÎúÞ<81>i<82>ran<81><83>there<81><84>with<85>carol<86>we<81><87>did"
import re
r = re.compile(">(.*?)<|>(.*)")
print(r.findall(s))
如果最后一个单词未包含在&gt;&lt;使用方法:
print(" ".join(("".join(x) for x in r.findall(s))))