(我是Python的新手。阅读BeautifulSoup DOC但是仍然不知道如何使用它)
你能帮我解决下面的问题吗?我正在尝试使用BeautifulSoup从网页中提取一些信息。网页的HTML源代码包含:
<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-shuffle-2gb.html">1015362</A></TD>
<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-touch-16gb-black-and-silver.html">1056332</A></TD>
<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-nano-16gb.html">1016552</A></TD>
我想提取以“http://”开头的所有网站链接文本,以及数字1015362,1056332,1016552。
这是代码的一部分:
AA = soup.findAll(text="http:")
for BB in AA:
print BB.renderContents()
我怎样才能让BeautifulSoup获取想要的文本?感谢。
答案 0 :(得分:2)
用于链接提取
for link in BeautifulSoup(page, parseOnlyThese=SoupStrainer('a')):
if link.has_attr('href'):
print link['href']
用于文本提取
text = soup.find('a').gettext()