我希望从所有"反应中提取数据"在网页中,http://www.genome.jp/dbget-bin/www_bget?cpd:C10453
执行时的代码应该从字段Name,formula,reaction,pathway中获取数据。接下来它应该打开所有3个反应并收集字段名称,定义,反应类别的数据。
我尝试使用Beautiful soup但是没有得到如何提取数据,因为HTML中的字段没有特定的类。
答案 0 :(得分:0)
我假设你已经检查过网页上的元素并注意到,反应表行有21级。假设每个页面的结构都是这样的,你使用的是BS3或BS4,你应该可以做类似
// get all elements with class td21, take the first, take every link in it
links = soup.find_all("td", class="td21"})[0].find_all("a")
获取链接元素(警告,语法在BS3 + BS4之间变化!)。查看参考资料以获取更多信息
使用您获得的链接,您可以通过提取每个链接的href属性并开始使用BS再次解析结果来启动新的http请求。
参考文献: