我正在使用mechanize和beautifulsoup创建一个python脚本来从网页中提取一些数据。抓取工作正常,但我遇到的问题是移动到多个页面。有没有办法在循环中机械化页面之间移动?
这是我试过的
Browser().follow_link(text_regex="Next")
但它转到下一页很好但如果“下一步”按钮不存在它就会死掉。在运行上面的follow link命令之前,我不确定如何制作更好的循环或者只是检查链接是否存在。
我发现的大多数示例和文档似乎只能在一个页面上工作。
答案 0 :(得分:1)
你的代码“只是死了”?如果它抛出异常,你可以抓住它并做一些事情来处理它(在循环内部):
try:
Browser.follow_link(text_regex="Next")
except Exception:
print "No more next button; terminating loop (but not dying mysteriously)"
break