使用BeautifulSoup从表中的单元格中提取值

时间:2017-12-08 06:41:30

标签: python beautifulsoup

我是Python以及所有内容的新手,我试图让BeautifulSoup从此页面的一个表中的一个特定单元格返回一个数值 (或同一维基中的任何其他类似页面)

现在我所拥有的只是:

url = ('http://unisonleague.wikia.com/wiki/Brynhildr,_Dual_Lancer_(Gear)')
r = requests.get(url)
data = r.text
soup = BeautifulSoup (data , 'html.parser')
table = soup.find (id='mw-content-text')
rows = table.find ('tr')
cells = rows.findAll('td')

我想要的价值来自" Max Unison Chance"旁边的单元格,所以" 10004"在这种情况下。

<td colspan="2" style="background-color:#5B4F3D; color:#ffffff;"> 10004 </td>

我试过

 soup.findAll('td colspan="2"')

soup.find('td colspan')

但它只返回任何内容或空列表。

我不太确定从哪里开始,我想过/尝试按行数编制索引(我相信这是行[14])也许是单元格,但我似乎无法得到正确的代码?

1 个答案:

答案 0 :(得分:1)

而不是像你一样做自上而下的方法,而是使用html的树结构。我假设您想将此概括为其他类似格式的页面,所以您可以做的是您可以使用&#34; Max Unison Chance&#34;在它作为一个锚点,然后你将遍历Beautiful Soup创建的解析树到达你正在寻找的单元格。这是包含描述单元格和您正在寻找/

的单元格的html
<td style="height: 29px; background-color:#3F2D18; color:#ffffff; font-size:7pt;"> <b><span style="cursor:help;" title="Maximum stats used during a Unison Chance. It is the total of both stats with +198.">Max Unison Chance</span>:</b>
</td><td colspan="2" style="background-color:#5B4F3D; color:#ffffff;"> 10004
</td>

在这里你可以直接获得包含&#34; Max Unison Chance&#34;的html标签。致电:

element = soup.find(text='Max Unison Chance')

这将为您提供具有文本&#34; Max Unison Chance&#34;在里面。 然后,如果您查看包含您要查找的数字的标记相对于您现在拥有的元素的位置。您可以看到需要上升三个节点才能到达单元格旁边的元素,其中包含10004。

要导航到此单元格,我们可以使用我们拥有的元素的parent属性并使用属性链接:

great_grandparent = element.parent.parent.parent

我们现在需要通过以下方式获取great_grandparent的next_sibling:

target_cell = great_grandparent.next_sibling

最后抓住元素的文本值并清理它:

result = target_cell.text.strip()

然后把它们放在一起:

from bs4 import BeautifulSoup
import requests
url = ('http://unisonleague.wikia.com/wiki/Brynhildr,_Dual_Lancer_(Gear)')
r = requests.get(url)
data = r.text
soup = BeautifulSoup (data , 'html.parser')
element= soup.find(text='Max Unison Chance')
result = element.parent.parent.parent.next_sibling.text.strip()

另一种方法是使用解析顺序而不是树顺序,这样你就可以用以下结果替换结果:

result = cell.next.next.next.strip()

由于下一个属性根据您使用的解析器的工作方式引用下一个元素