机械化打开多个页面

时间:2011-03-04 00:59:56

标签: python beautifulsoup mechanize web-scraping

我正在使用mechanize和beautifulsoup创建一个python脚本来从网页中提取一些数据。抓取工作正常,但我遇到的问题是移动到多个页面。有没有办法在循环中机械化页面之间移动?

这是我试过的

Browser().follow_link(text_regex="Next")

但它转到下一页很好但如果“下一步”按钮不存在它就会死掉。在运行上面的follow link命令之前,我不确定如何制作更好的循环或者只是检查链接是否存在。

我发现的大多数示例和文档似乎只能在一个页面上工作。

1 个答案:

答案 0 :(得分:1)

你的代码“只是死了”?如果它抛出异常,你可以抓住它并做一些事情来处理它(在循环内部):

try:
   Browser.follow_link(text_regex="Next")
except Exception:
   print "No more next button; terminating loop (but not dying mysteriously)"
   break