BeautifulSoup只提取顶级标签

时间:2016-06-19 19:27:12

标签: python html python-3.x web-scraping beautifulsoup

我在Python 3.4中使用BeautifulSoup进行网页抓取。

现在我在学习期间遇到了一个问题: 我试图从网页上获取表格行,并且我使用find_all()来获取它们,但是在表格内部 - 还有更多的表格,其中包含表格行!如何在BeautifulSoup中仅 标记的顶级/第一级常规或特定元素?

# Retrieves all the row ('tr') tags in table
my_table.find_all('tr')

顺便说一句,这个问题是这个问题的重复(只有那里使用的编程语言是PHP):Extract only first level paragraphs from html

1 个答案:

答案 0 :(得分:13)

显然在方法 find_all()中有一个名为 recursive 的参数,默认设置为 True

将其设置为false,使该方法仅返回顶级元素。

find_all('tr', recursive=False)