我使用xpath
在python中编写了一个脚本来解析来自网页的表格数据。执行时,它能够完美地解析表中的数据。我无法解决的唯一问题是解析table header
,表示th
标记。如果我使用css选择器做同样的事情,我可以使用.cssselect("th,td")
但是在xpath
的情况下我被卡住了。任何有关如何解析th
标签数据的帮助也将受到高度赞赏。
以下脚本能够从th
标记内的数据中获取不同表格中的所有内容:
import requests
from lxml.html import fromstring
response = requests.get("https://fantasy.premierleague.com/player-list/")
tree = fromstring(response.text)
for row in tree.xpath("//*[@class='ism-table']//tr"):
tab_d = row.xpath('.//td/text()')
print(tab_d)
答案 0 :(得分:1)
我不确定我是否理解您的观点,但如果您想使用单个XPath同时获取th
和td
个节点,则可以尝试替换
tab_d = row.xpath('.//td/text()')
与
tab_d = row.xpath('.//*[name()=("th" or "td")]/text()')
答案 1 :(得分:1)
更改
.//td/text()
到
.//*[self::td or self::th]/text()
也包括th
元素。
请注意,假设td
和th
都是tr
上下文节点的直接子节点是合理的,因此您可以进一步简化XPath:
*[self::td or self::th]/text()