Question

我设法获得了外部网站的页面源DOM，但它带有\ r \ n和大量的空白。

import urllib.request

request = urllib.request.Request('http://example.com')
response = urllib.request.urlopen(request)
page = response.read()
page = page.strip('\r\n')
print (page)

我尝试剥离它们，但没有运气。我怎样才能只是 HTML？

其次，使用javascript / jquery操作返回的DOM的逻辑是什么？我希望能做到这样的事情：

alert(document.getElementsByTagName('h1')[0].innerHTML);

哪个应该使用生成的DOM警告“示例域”。

Answer 1

'foo \r\n bar\r\n'.strip()

只会在结尾删除'\r\n'。如果您在整个文本中都有这些内容，请尝试链接.replace（），如下所示：

'foo \r\n bar\r\n'.replace('\r', '').replace('\n', '').replace(' ', '')

从python变量中删除\ r \ n

1 个答案: