Question

我在这里找到了一个指南： https://docs.python.org/2/library/htmlparser.html 但是函数 HTMLParser.feed（data）使用数据作为html本身。

有一种方法可以进行类似的Feed，但只能使用网址吗？像这样的东西...... HTMLParser.feed（＆＃34; www.a.com＆＃34;）？

一般来说，我想从不同的网页中获取一个变量，并使用python脚本将其加载到python变量中并在它们之间进行主持。

感谢。

Answer 1

import urllib2
f = urllib2.urlopen(url)
page_data = f.read()

# do stuff with html
HTMLParser.feed(page_data)

f.close()

这将从页面返回原始html。然后，您可以解析它并找到您想要的任何内容。不确定是否有更快的解决方案。

Answer 2

import requests
r = requests.get("https://github.com/")
r.content

稍后，如果您要解析内容，可以使用lxml