在下面的表格中,我刮了项目1-4,并将其存储在名为标题的变量中。
我还想选择值1-4并将它们存储在一个名为column的变量中,无论如何每秒都要进行选择。
columns = boxinfo.find_all("td").nthChild(2)
我要从中抓取的表结构
<div class="box1">
<table class="table1">
<tr><td class="label">Item1</td><td>Value1</td></tr>
<tr><td class="label">Item2</td><td>Value2</td></tr>
<tr><td class="label">Item3</td><td>Value3</td></tr>
<tr><td class="label">Item4</td><td>Value4</td></tr>
</table>
</div>
代码
#Find our information
boxinfo = soup.find("div", {"id": "box1"})
headings = boxinfo.find_all("td", {"class": "label"})
columns = boxinfo.find_all("td").nthChild(2) #This does not work :(
答案 0 :(得分:2)
如果您尝试提取所有值,则可以让BeautifulSoup返回所有项目,然后Python可以过滤所需的值。例如:
from bs4 import BeautifulSoup
html = """<div class="box1">
<table class="table1">
<tr><td class="label">Item1</td><td>Value1</td></tr>
<tr><td class="label">Item2</td><td>Value2</td></tr>
<tr><td class="label">Item3</td><td>Value3</td></tr>
<tr><td class="label">Item4</td><td>Value4</td></tr>
</table>
</div>"""
soup = BeautifulSoup(html, "html.parser")
div = soup.find("div", class_="box1")
values = []
for tr in div.find_all('tr'):
values.append(tr.find_all("td")[1].text)
print(values)
为您提供值列表:
['Value1', 'Value2', 'Value3', 'Value4']
或者如果您想要包含所有数据作为列的列表:
soup = BeautifulSoup(html, "html.parser")
div = soup.find("div", class_="box1")
columns = []
for tr in div.find_all('tr'):
columns.append([td.text for td in tr.find_all("td")])
columns = list(zip(*columns))
print(columns)
print(columns[1]) # display the 2nd column
给你
[('Item1', 'Item2', 'Item3', 'Item4'), ('Value1', 'Value2', 'Value3', 'Value4')]
('Value1', 'Value2', 'Value3', 'Value4')
list(zip(*columns))
是一种将行列表转换为列列表的方法。