HTML:
<a title="ЧП в СаранскеСсылка на это сообщение #41" rel="bookmark" href="http://forum.saransk.ru/topic/193296-chp-v-saranske/page-3#entry3556494" data-entry-pid="3556494" itemprop="replyToUrl">
#41
<img title="ЧП в СаранскеСсылка на это сообщение #41" class="small" src="http://forum.saransk.ru//public/style_images/master/icon_share.png">
</a>
<a title="ЧП в СаранскеСсылка на это сообщение #41" rel="bookmark" href="http://forum.saransk.ru/topic/193296-chp-v-saranske/page-3#entry3556494" data-entry-pid="3556494" itemprop="replyToUrl">
#42
<img title="ЧП в СаранскеСсылка на это сообщение #41" class="small" src="http://forum.saransk.ru//public/style_images/master/icon_share.png">
</a>
..................
请帮助列出序列号。看起来应该是这样的:
['#41', '#42', '#43', '#44', '#45', '#46']
我使用以下代码:
list = []
html = requests.get(value)
soup = bs4.BeautifulSoup(html.text)
num = soup.findAll('a', {'itemprop': 'replyToUrl'})
print(value , num, end='\n')
list.append(num)
但此代码放在额外数据列表中
答案 0 :(得分:2)
>>> [a.text.strip() for a in soup.find_all('a', {'itemprop': 'replyToUrl'})]
[u'#41', u'#42', u'#43', u'#44', u'#45', u'#46', u'#47', u'#48', u'#49', u'#50']