如何从python中的HTML表格中的特定单元格获取数据?

时间:2015-03-07 04:27:11

标签: python html parsing beautifulsoup

This link contains the table I'm trying to parse. 我试图在Python中使用BeautifulSoup。我对BeautifulSoup和HTML很新。这是我试图解决我的问题。

soup = BeautifulSoup(open('BBS_student_grads.php'))

data = []
table = soup.find('table')
rows = table.find_all('tr') #array of rows in table 

for x,row in enumerate(rows[1:]):# skips first row 
    cols = row.find_all('td')    # finds all cols in rows
    for y,col in enumerate(cols): # iterates through col
        data.append([])
        data[x].append(col)       # puts table into a 2d array called data

print(data[0][0])                 #prints top left corner

Sample Output

我试图提取表中的所有名称,然后更新列表中的名称,然后更新表。我还使用了这个HTML的本地副本。暂时修复,直到我学习如何进行更多的网络编程。

非常感谢帮助

1 个答案:

答案 0 :(得分:1)

我认为您只需要td元素中的tr元素class="searchbox_black"

您可以使用CSS Selectors获取所需的td元素:

for cell in soup.select('tr.searchbox_black td'):
    print cell.text

打印:

BB Salsa

 Adams State University Alamosa, CO               
              Sensei: Oneyda Maestas               
              Raymond Breitstein               

...