Question

我希望从所有＆＃34;反应中提取数据＆＃34;在网页中，http://www.genome.jp/dbget-bin/www_bget?cpd:C10453

执行时的代码应该从字段Name，formula，reaction，pathway中获取数据。接下来它应该打开所有3个反应并收集字段名称，定义，反应类别的数据。

我尝试使用Beautiful soup但是没有得到如何提取数据，因为HTML中的字段没有特定的类。

Answer 1

我假设你已经检查过网页上的元素并注意到，反应表行有21级。假设每个页面的结构都是这样的，你使用的是BS3或BS4，你应该可以做类似

// get all elements with class td21, take the first, take every link in it
links = soup.find_all("td", class="td21"})[0].find_all("a")

获取链接元素（警告，语法在BS3 + BS4之间变化！）。查看参考资料以获取更多信息

使用您获得的链接，您可以通过提取每个链接的href属性并开始使用BS再次解析结果来启动新的http请求。

参考文献：