我试图打开并处理mht文件并清除经销商位置数据。每当我遇到一个“棘手”的网站时html的格式我总是遇到同样的问题。它变成了:
a href =" http://www.google.com/maps?s = 123 main st" ......
到
a href="http://www.=
google.com/maps?=12=
3 main st"
到目前为止,我所尝试过的任何东西都没有努力将这条线重新带回原来的自我。我仍然无法取消地址。
a = a.replace(r'=\n', '')
或
a = a.replace(r'\n', '')
甚至尝试过,
a = a.replace(r'[0D]', '')
刚试过,
a = a.sub(r'\n', '')
我所得到的只是错误&#str; str对象没有属性' sub'并且无论是否有' r'它都会做同样的事情。在代码中。
到目前为止,没有任何工作。当我去查看mht文件时,如何替换总是弹出的= \ n。
我正在使用
a = open('Filename.mht', 'r')
b = a.read()
a.close()
答案 0 :(得分:0)
做str = str.replace("\n","")
适合我。所以,如果你这样做
string = '''a href="http://www.=
google.com/maps?=12=
3 main st'''
string = string.replace("\n", "")
print(string)
'a href="http://www.=google.com/maps?=12=3 main st'
那应该有用 This post might help, and explain why.
编辑:刚刚测试过,它确实有效。
答案 1 :(得分:0)
我想我找到了解决方法。 .read()导致了问题,但不确定原因。我将它改为readlines(),然后将字符串重新组合在一起,它现在正常工作,只有一个小例外,我讨厌'。'当你试图re.findall ...至少我认为这是导致程序现在挂断的原因。