我目前正在使用urllib2和BeautifulSoup来打开和解析html数据。但是我遇到了一个网站问题,该网站使用javascript在页面渲染后加载图像(我正在尝试在页面上找到某个图像的图像源)。
我认为Twill可能是一个解决方案,我正在尝试打开页面并使用带有'find'的正则表达式来返回我正在寻找的html字符串。我在使用这个工作时遇到了一些麻烦,似乎无法找到关于如何在Twill中使用正则表达式的任何文档或示例。
非常感谢任何有关如何执行此操作或解决此问题的帮助或建议。
答案 0 :(得分:0)
我宁愿在页面源上使用CSS选择器或“真正的”正则表达式。斜纹是AFAIK没有被处理。你有没有尝试使用CSS选择器的BS或PyQuery?
答案 1 :(得分:0)
斜纹不适用于javascript(请参阅http://twill.idyll.org/browsing.html)
如果你想处理javascript,请使用webdriver