使用beautifulsoup从html中获取列值

时间:2017-07-21 14:41:23

标签: python html web-scraping beautifulsoup lxml

我正在尝试在这些列中获取单元格值,但我只在html表中获取这些列的标题

soup = BeautifulSoup(response, 'lxml')

table = soup.find('table', {'class', 'annotation'})
for row in table.findAll("tr"):
    cells = row.findAll("td")
    if len(cells) == 21:
        gene_id = cells[4].text
        gene_aspect = cells[6].text
        print(gene_id, gene_aspect)

我得到了这个输出

GO Identifier



Aspect

虽然,我希望这两列中存在值。

1 个答案:

答案 0 :(得分:1)

修正:

table = soup.find('table', class_='annotation')

{'class', 'annotation'}

您的代码存在的问题是

cv2.COLOR_BGR2GRAY

是一个集合,而BeautifulSoup则需要一个字典。