应用错误收集

时间：2012-07-29 00:57:40

标签： python regex beautifulsoup twill

我目前正在使用urllib2和BeautifulSoup来打开和解析html数据。但是我遇到了一个网站问题，该网站使用javascript在页面渲染后加载图像（我正在尝试在页面上找到某个图像的图像源）。

我认为Twill可能是一个解决方案，我正在尝试打开页面并使用带有'find'的正则表达式来返回我正在寻找的html字符串。我在使用这个工作时遇到了一些麻烦，似乎无法找到关于如何在Twill中使用正则表达式的任何文档或示例。

非常感谢任何有关如何执行此操作或解决此问题的帮助或建议。

答案 0 :(得分：0)

我宁愿在页面源上使用CSS选择器或“真正的”正则表达式。斜纹是AFAIK没有被处理。你有没有尝试使用CSS选择器的BS或PyQuery？

答案 1 :(得分：0)

斜纹不适用于javascript（请参阅http://twill.idyll.org/browsing.html）

如果你想处理javascript，请使用webdriver