解码编码的文本文件 - Python

时间:2015-03-04 01:20:57

标签: python decode

所以假设我写了一个方法,将一个文本文件编码成一些看起来像

的乱码

úÎúÞ<81>i<82>ran<81><83>there<81><84>with<85>carol<86>we<81><87>did

我对如何重新放入正常的文本文件有所了解 i ran there with carol we did

开头的字符只是魔术数字,但我只是想检查一下魔术数字并将这些单词取回到一个忽略数字的文件中。

2 个答案:

答案 0 :(得分:2)

具有正确模式的

re.split将执行此操作:

import re
s='úÎúÞ<81>i<82>ran<81><83>there<81><84>with<85>carol<86>we<81><87>did'
L = re.split(r'<[\d<>]+>',s)
print(L)
print(' '.join(L[1:]))

输出:

['úÎúÞ', 'i', 'ran', 'there', 'with', 'carol', 'we', 'did']
i ran there with carol we did

答案 1 :(得分:1)

使用re提取><

之间的字词
s = "úÎúÞ<81>i<82>ran<81><83>there<81><84>with<85>carol<86>we<81><87>did"

import re
r = re.compile(">(.*?)<|>(.*)")
print(r.findall(s))

如果最后一个单词未包含在&gt;&lt;使用方法:

print(" ".join(("".join(x) for x in r.findall(s))))