替换mht文件中的\ n

时间:2016-12-28 17:17:24

标签: python python-3.x

我试图打开并处理mht文件并清除经销商位置数据。每当我遇到一个“棘手”的网站时html的格式我总是遇到同样的问题。它变成了:

a href =" http://www.google.com/maps?s = 123 main st" ......

a href="http://www.=
google.com/maps?=12=
 3 main st"

到目前为止,我所尝试过的任何东西都没有努力将这条线重新带回原来的自我。我仍然无法取消地址。

a = a.replace(r'=\n', '')

a = a.replace(r'\n', '')

甚至尝试过,

a = a.replace(r'[0D]', '')

刚试过,

a = a.sub(r'\n', '')

我所得到的只是错误&#str; str对象没有属性' sub'并且无论是否有' r'它都会做同样的事情。在代码中。

到目前为止,没有任何工作。当我去查看mht文件时,如何替换总是弹出的= \ n。

我正在使用

a = open('Filename.mht', 'r')
b = a.read()
a.close()

2 个答案:

答案 0 :(得分:0)

str = str.replace("\n","") 适合我。所以,如果你这样做

string = '''a href="http://www.=
google.com/maps?=12=
3 main st''' 
string = string.replace("\n", "")

print(string)
'a href="http://www.=google.com/maps?=12=3 main st'

那应该有用 This post might help, and explain why.

编辑:刚刚测试过,它确实有效。

答案 1 :(得分:0)

我想我找到了解决方法。 .read()导致了问题,但不确定原因。我将它改为readlines(),然后将字符串重新组合在一起,它现在正常工作,只有一个小例外,我讨厌'。'当你试图re.findall ...至少我认为这是导致程序现在挂断的原因。