Python调用多个URL并从中提取数据

时间:2011-07-29 00:21:02

标签: python url call taxonomy genetics

我正在尝试编写一个调用网页的脚本(http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Tree&id=7742&lvl= 3& lin = f& keep = 1& srchmode = 1& unlock),扫描它,然后拉出每个嵌套分类组中的顺序,族,属和种。然而,我只想要脊椎动物(整个网站的一小部分),但与各种脊椎动物类群相关的URL不是任何可辨别的模式(即顺序)。有没有办法做到这一点合理?我一直在努力制定不同的方法来实现这一目标。

1 个答案:

答案 0 :(得分:0)

目前还不是很清楚(至少对我来说)你究竟想做什么,但是,根据我的理解,你需要创建某种爬行器,在页面中查找链接,浏览网站并对它们进行分类?

如果是这样,请转到mechanize,它允许您模拟网络浏览器,浏览网站,轻松提取和关注链接,提交表单等。