如何获得嵌套元素?

时间:2014-02-23 17:19:42

标签: python python-3.x beautifulsoup

HTML:

<a title="ЧП в СаранскеСсылка на это сообщение #41" rel="bookmark" href="http://forum.saransk.ru/topic/193296-chp-v-saranske/page-3#entry3556494" data-entry-pid="3556494" itemprop="replyToUrl">               
    #41
    <img title="ЧП в СаранскеСсылка на это сообщение #41" class="small" src="http://forum.saransk.ru//public/style_images/master/icon_share.png">
</a>


<a title="ЧП в СаранскеСсылка на это сообщение #41" rel="bookmark" href="http://forum.saransk.ru/topic/193296-chp-v-saranske/page-3#entry3556494" data-entry-pid="3556494" itemprop="replyToUrl">               
    #42
    <img title="ЧП в СаранскеСсылка на это сообщение #41" class="small" src="http://forum.saransk.ru//public/style_images/master/icon_share.png">
</a>

..................

请帮助列出序列号。看起来应该是这样的:

['#41', '#42', '#43', '#44', '#45', '#46']

我使用以下代码:

list = []
html = requests.get(value)
soup = bs4.BeautifulSoup(html.text)
num = soup.findAll('a', {'itemprop': 'replyToUrl'})
print(value , num, end='\n')
list.append(num)

但此代码放在额外数据列表中

1 个答案:

答案 0 :(得分:2)

>>> [a.text.strip() for a in soup.find_all('a', {'itemprop': 'replyToUrl'})]
[u'#41', u'#42', u'#43', u'#44', u'#45', u'#46', u'#47', u'#48', u'#49', u'#50']