Question

我试图打开并处理mht文件并清除经销商位置数据。每当我遇到一个“棘手”的网站时html的格式我总是遇到同样的问题。它变成了：

a href =＆＃34; http：//www.google.com/maps？s = 123 main st＆＃34; ......

到

a href="http://www.=
google.com/maps?=12=
 3 main st"

到目前为止，我所尝试过的任何东西都没有努力将这条线重新带回原来的自我。我仍然无法取消地址。

a = a.replace(r'=\n', '')

或

a = a.replace(r'\n', '')

甚至尝试过，

a = a.replace(r'[0D]', '')

刚试过，

a = a.sub(r'\n', '')

我所得到的只是错误＆＃str; str对象没有属性＆＃39; sub＆＃39;并且无论是否有＆＃39; r＆＃39;它都会做同样的事情。在代码中。

到目前为止，没有任何工作。当我去查看mht文件时，如何替换总是弹出的= \ n。

我正在使用

a = open('Filename.mht', 'r')
b = a.read()
a.close()

Answer 1

做str = str.replace("\n","") 适合我。所以，如果你这样做

string = '''a href="http://www.=
google.com/maps?=12=
3 main st''' 
string = string.replace("\n", "")

print(string)
'a href="http://www.=google.com/maps?=12=3 main st'

那应该有用 This post might help, and explain why.

编辑：刚刚测试过，它确实有效。

Answer 2

我想我找到了解决方法。 .read（）导致了问题，但不确定原因。我将它改为readlines（），然后将字符串重新组合在一起，它现在正常工作，只有一个小例外，我讨厌＆＃39;。＆＃39;当你试图re.findall ...至少我认为这是导致程序现在挂断的原因。

替换mht文件中的\ n

2 个答案: