Python:网络抓取:需要帮助抓取特定链接或自动点击按钮

时间:2014-01-15 22:09:58

标签: javascript python web-scraping

我想从数据库中下载几个特定的​​DNA序列。 (http://medicago-mutant.noble.org/mutant/FNBline1.php?id=NF-FN+8113) 我可以轻松地解析该页面上的静态链接,以便跟踪它们,但是从下一页我无法获得我想要下载的文件的链接(http://gb.sc.noble.org/cgi-bin/gb2/gbrowse/medicago3_5/?name=CHR02FS001028027)它位于“开始”按钮下。有没有办法获取该信息,或自动推送该按钮? 该按钮触发javascript,打开一个新窗口并立即开始下载该文件。 我一直在使用urllib2来下载网站,但是解析链接的源代码似乎没有任何意义。

1 个答案:

答案 0 :(得分:0)

首先,网站是否提供了下载所有文件的tar球的链接?

我对urllib2没有经验,但根据我的经验,selenium(http://docs.seleniumhq.org/)应该能够很容易地完成它。只需打开Selenium IDE(浏览器插件)并记录您要下载的链接的ID,然后使用python自动化它。 selenium网站提供详细说明(http://docs.seleniumhq.org/docs/)。您也可以搜索SO,因为这里有很多答案。

还有许多其他工具,如Watir,Sahi,WatiN等。您可以在此处找到不完整的列表:Web Automation Tool,此处:http://en.wikipedia.org/wiki/List_of_web_testing_tools