我有以下代码:
__PARENT_TAG = "article"
def _navigate_to_xxx(self):
"""acquire html from xxx and beautify the raw html"""
html = requests.get(xxx.__BASE_URL + xxx.__EXTENDED_URL)
self.beautified_html = BeautifulSoup(html.content, "html.parser")
def _extract(self):
"""helper function that extracts elements from beautified_html and returns it"""
element_list = None
element_list = self.beautified_html.findAll(self.__PARENT_TAG)
logging.debug("The number of __PARENT_TAG is: {0}".format(len(element_list)))
return element_list
问题出在同一个网页上,我从调试行得到的结果有时是18,有时是20(我预计20)。
任何人都知道为什么会这样吗?
答案 0 :(得分:1)
我认为我们需要看看你的__PARENT_TAG调用是什么样才能准确诊断出来,但我知道由常规网站html制作的BeautifulSoup中有很多空洞和无关的内容。仔细查看bs4文档中{find}({3}}中findall()的确切行为,并确保您位于html树的正确位置。某些部分可能会有额外的<div>
课程,或者您没想到的课程。