Question

我在Python 3.4中使用BeautifulSoup进行网页抓取。

现在我在学习期间遇到了一个问题：我试图从网页上获取表格行，并且我使用find_all（）来获取它们，但是在表格内部 - 还有更多的表格，其中包含表格行！如何在BeautifulSoup中仅 标记的顶级/第一级常规或特定元素？

# Retrieves all the row ('tr') tags in table my_table.find_all('tr')

顺便说一句，这个问题是这个问题的重复（只有那里使用的编程语言是PHP）：Extract only first level paragraphs from html

Answer 1

显然在方法 find_all（）中有一个名为 recursive 的参数，默认设置为 True 。

将其设置为false，使该方法仅返回顶级元素。

find_all('tr', recursive=False)

BeautifulSoup只提取顶级标签

1 个答案: