Python:Webcraping连接同一页面的多个链接

时间:2018-03-26 21:16:35

标签: python-3.x web-scraping

我希望从所有"反应中提取数据"在网页中,http://www.genome.jp/dbget-bin/www_bget?cpd:C10453

执行时的代码应该从字段Name,formula,reaction,pathway中获取数据。接下来它应该打开所有3个反应并收集字段名称,定义,反应类别的数据。

我尝试使用Beautiful soup但是没有得到如何提取数据,因为HTML中的字段没有特定的类。

1 个答案:

答案 0 :(得分:0)

我假设你已经检查过网页上的元素并注意到,反应表行有21级。假设每个页面的结构都是这样的,你使用的是BS3或BS4,你应该可以做类似

// get all elements with class td21, take the first, take every link in it
links = soup.find_all("td", class="td21"})[0].find_all("a")

获取链接元素(警告,语法在BS3 + BS4之间变化!)。查看参考资料以获取更多信息

使用您获得的链接,您可以通过提取每个链接的href属性并开始使用BS再次解析结果来启动新的http请求。

参考文献:

how-to-find-elements-by-class

searching-by-css-class