应用错误收集

Python：网络抓取：需要帮助抓取特定链接或自动点击按钮

时间：2014-01-15 22:09:58

标签： javascript python web-scraping

我想从数据库中下载几个特定的DNA序列。（http://medicago-mutant.noble.org/mutant/FNBline1.php?id=NF-FN+8113）我可以轻松地解析该页面上的静态链接，以便跟踪它们，但是从下一页我无法获得我想要下载的文件的链接（http://gb.sc.noble.org/cgi-bin/gb2/gbrowse/medicago3_5/?name=CHR02FS001028027）它位于“开始”按钮下。有没有办法获取该信息，或自动推送该按钮？该按钮触发javascript，打开一个新窗口并立即开始下载该文件。我一直在使用urllib2来下载网站，但是解析链接的源代码似乎没有任何意义。

1 个答案:

答案 0 :(得分：0)

首先，网站是否提供了下载所有文件的tar球的链接？

我对urllib2没有经验，但根据我的经验，selenium（http://docs.seleniumhq.org/）应该能够很容易地完成它。只需打开Selenium IDE（浏览器插件）并记录您要下载的链接的ID，然后使用python自动化它。 selenium网站提供详细说明（http://docs.seleniumhq.org/docs/）。您也可以搜索SO，因为这里有很多答案。

还有许多其他工具，如Watir，Sahi，WatiN等。您可以在此处找到不完整的列表：Web Automation Tool，此处：http://en.wikipedia.org/wiki/List_of_web_testing_tools。