我在这里找到了一个指南: https://docs.python.org/2/library/htmlparser.html 但是函数 HTMLParser.feed(data)使用数据作为html本身。
有一种方法可以进行类似的Feed,但只能使用网址吗? 像这样的东西...... HTMLParser.feed(" www.a.com")?
一般来说,我想从不同的网页中获取一个变量,并使用python脚本将其加载到python变量中并在它们之间进行主持。
感谢。
答案 0 :(得分:1)
import urllib2
f = urllib2.urlopen(url)
page_data = f.read()
# do stuff with html
HTMLParser.feed(page_data)
f.close()
这将从页面返回原始html。然后,您可以解析它并找到您想要的任何内容。不确定是否有更快的解决方案。
答案 1 :(得分:0)
也许 python-requests?
import requests
r = requests.get("https://github.com/")
r.content
稍后,如果您要解析内容,可以使用lxml