This link contains the table I'm trying to parse.
我试图在Python中使用BeautifulSoup
。我对BeautifulSoup
和HTML很新。这是我试图解决我的问题。
soup = BeautifulSoup(open('BBS_student_grads.php'))
data = []
table = soup.find('table')
rows = table.find_all('tr') #array of rows in table
for x,row in enumerate(rows[1:]):# skips first row
cols = row.find_all('td') # finds all cols in rows
for y,col in enumerate(cols): # iterates through col
data.append([])
data[x].append(col) # puts table into a 2d array called data
print(data[0][0]) #prints top left corner
我试图提取表中的所有名称,然后更新列表中的名称,然后更新表。我还使用了这个HTML的本地副本。暂时修复,直到我学习如何进行更多的网络编程。
非常感谢帮助
答案 0 :(得分:1)
我认为您只需要td
元素中的tr
元素class="searchbox_black"
。
您可以使用CSS Selectors
获取所需的td
元素:
for cell in soup.select('tr.searchbox_black td'):
print cell.text
打印:
BB Salsa
Adams State University Alamosa, CO
Sensei: Oneyda Maestas
Raymond Breitstein
...