Question

我不确定我是否在正确的道路上回答这个问题，但是我找不到任何资源来帮助我。

我已经开发了一个刮板的开始，它遍历了链接列表（https://bulbapedia.bulbagarden.net/wiki/Category:Trainer_classes）并进入了每个培训班的页面。我想在每个培训班的页面上抓取某些表格的内容。我遇到的问题是构建足够动态的代码，以处理我正在浏览的所有链接。

XPath并不是真正的选择，因为页面上的所有表（包括我不想要的表）都具有这样的Xpath：

//*[@id="mw-content-text"]/table[6]
//*[@id="mw-content-text"]/table[7]
//*[@id="mw-content-text"]/table[4]
//*[@id="mw-content-text"]/table[3]

我想要的表没有一致的表号。所以，实际上我的问题变成了...

如何刮擦所有列名为TrainerName / Battle / Winnings / Pokemon的表？我找不到能使我根据其标签的文本内容刮擦表格的资源吗？

这是我要抓取的页面示例：

https://bulbapedia.bulbagarden.net/wiki/Ace_Duo_(Trainer_class)

也许我以错误的方式来解决问题，但这是我能想到的最好的主意。谢谢您的时间和协助。

基于列名称的Python Scraping HTML表

0 个答案: