我设法获得了外部网站的页面源DOM,但它带有\ r \ n和大量的空白。
import urllib.request
request = urllib.request.Request('http://example.com')
response = urllib.request.urlopen(request)
page = response.read()
page = page.strip('\r\n')
print (page)
我尝试剥离它们,但没有运气。我怎样才能只是 HTML?
其次,使用javascript / jquery操作返回的DOM的逻辑是什么?我希望能做到这样的事情:
alert(document.getElementsByTagName('h1')[0].innerHTML);
哪个应该使用生成的DOM警告“示例域”。
答案 0 :(得分:2)
'foo \r\n bar\r\n'.strip()
只会在结尾删除'\r\n'
。如果您在整个文本中都有这些内容,请尝试链接.replace(),如下所示:
'foo \r\n bar\r\n'.replace('\r', '').replace('\n', '').replace(' ', '')