我不确定我是否在正确的道路上回答这个问题,但是我找不到任何资源来帮助我。
我已经开发了一个刮板的开始,它遍历了链接列表(https://bulbapedia.bulbagarden.net/wiki/Category:Trainer_classes)并进入了每个培训班的页面。我想在每个培训班的页面上抓取某些表格的内容。我遇到的问题是构建足够动态的代码,以处理我正在浏览的所有链接。
XPath并不是真正的选择,因为页面上的所有表(包括我不想要的表)都具有这样的Xpath:
//*[@id="mw-content-text"]/table[6]
//*[@id="mw-content-text"]/table[7]
//*[@id="mw-content-text"]/table[4]
//*[@id="mw-content-text"]/table[3]
我想要的表没有一致的表号。所以,实际上我的问题变成了...
如何刮擦所有列名为TrainerName / Battle / Winnings / Pokemon的表?我找不到能使我根据其标签的文本内容刮擦表格的资源吗?
这是我要抓取的页面示例:
https://bulbapedia.bulbagarden.net/wiki/Ace_Duo_(Trainer_class)
也许我以错误的方式来解决问题,但这是我能想到的最好的主意。谢谢您的时间和协助。