我尝试阅读的HTLM页面有21个表格。我尝试引用的特定表格是唯一的,因为它具有唯一的<caption>
,并且并非所有表格都有标题。
以下是结构的片段:
<table class="wikitable">
<caption>Very long caption</caption>
<tbody>
<tr align="center" bgcolor="#efefef">
我试过了:
soup = BeautifulSoup(r.text, "html.parser")
table1 = soup.find('table', caption="Very long caption")
但是返回一个None
对象。
答案 0 :(得分:3)
soup.find('table', caption="Very long caption")
这基本上意味着 - 找到table
元素,其caption
属性值为Very long caption
。这显然没有任何回报。
我要做的是按文字找到caption
元素并获取parent table
element:
soup.find("caption", text="Very long caption").find_parent("table")