我在Python 3.4中使用BeautifulSoup进行网页抓取。
现在我在学习期间遇到了一个问题: 我试图从网页上获取表格行,并且我使用find_all()来获取它们,但是在表格内部 - 还有更多的表格,其中包含表格行!如何在BeautifulSoup中仅 标记的顶级/第一级常规或特定元素?
# Retrieves all the row ('tr') tags in table
my_table.find_all('tr')
顺便说一句,这个问题是这个问题的重复(只有那里使用的编程语言是PHP):Extract only first level paragraphs from html
答案 0 :(得分:13)
显然在方法 find_all()中有一个名为 recursive 的参数,默认设置为 True 。
将其设置为false,使该方法仅返回顶级元素。
find_all('tr', recursive=False)