我正在研究使用Python3抓取。
<ul class='report_thum_list img'>
<li>...</li>
<li>...</li>
<li>...</li>
<li>...</li>
<li>...</li>
在此,我只想拉出li标签。
所以,我写了那个
ulTag = soup.findAll('ul', class_='report_thum_list img')
liTag = ulTag[0].findAll('li')
# print(len(liTag))
我预计二十(每页有20个帖子。)
但是超过100人出来了。
因为li标签中还有另一个li标签。
我不想在div标签中提取li标签。
如何提取20个li标签?
这是我的代码。
url = 'https://www.posri.re.kr/ko/board/thumbnail/list/63?page='+ str(page)
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, 'lxml')
ulTag = soup.find('ul', class_='report_thum_list img')
# liTag = ulTag.findAll('li')
liTag = ulTag.findChildren('li')
print(len(liTag))
答案 0 :(得分:1)
liTag = soup.select('ul.report_thum_list > li')
使用CSS选择器,它非常易于使用