我正在尝试使用python请求模块获取远程页面,重建DOM树,进行一些处理并将结果保存到文件中。当我获取页面然后将其写入文件时,一切正常(我可以稍后在浏览器中打开一个html文件并正确呈现)。
但是,如果我创建一个pyquery对象并进行一些处理然后使用str转换保存它就会失败。具体来说,像&&和等等在已保存源的脚本标记内修改(由pyquery的应用引起),它会阻止页面正确呈现。
这是我的代码:
import requests
from lxml import etree
from pyquery import PyQuery as pq
user_agent = {'User-agent': 'Mozilla/5.0'}
r = requests.get('http://www.google.com',headers=user_agent, timeout=4)
DOM = pq(r.text)
#some optional processing
fTest = open("fTest.html","wb")
fTest.write(str(DOM))
fTest.close()
所以,问题是:如何确保在应用pyquery之后不转义特殊字符?我想它可能与lxml(pyquery的父库)有关,但是在单调乏味之后在线搜索和使用不同的对象序列化方法进行实验我仍然没有做到。也许这也与unicode处理有关?!
非常感谢提前!
答案 0 :(得分:3)
我找到了一个优雅的问题解决方案,以及之前代码无效的原因。
首先,您可以使用http://lxml.de/lxmlhtml.html仔细阅读该页面。
它有一个“使用电子工厂创建HTML”部分。在该部分之后,他们指出etree.tostring() method
仅适用于XML的事实。但对于HTML而言,如果有更多可能使用脚本或样式标签的话,那么它就会乱七八糟。所以..
其次,解决方案是使用重载方法html.tostring()
。
最终的工作代码是:
# for networking
import requests
# for parsing and serialization
from lxml import etree
from lxml.html import tostring as html2str # IMPORTANT!!!
from pyquery import PyQuery as pq
user_agent = {'User-agent': 'Mozilla/5.0'}
r = requests.get('http://www.google.com',headers=user_agent, timeout=4)
# construct DOM object
DOM = pq(r.text)
# do stuff with DOM
#
# save result to file
fTest = open("fTest.html","wb")
fTest.write(html2str(DOM.root)) # IMPORTANT!!!
fTest.close()
希望将来有些人能节省时间!玩得开心! ;)