我有这个HTML:
<a href="/watch?gl=US&client=mv-google&hl=en&v=0C_yXOhJxWg">Miss Black OCU 2011</a>
我的程序读取一个html文件,上面是该文件的块。如何在python中使用BeautifulSoup提取“Miss Black OCU 2011”。
答案 0 :(得分:3)
这是一个快速修复:
>>> from BeautifulSoup import BeautifulSoup as BS
>>> soup = BS('<a href="/watch?gl=US&client=mv-google&hl=en&v=0C_yXOhJxWg">Miss Black OCU 2011</a>')
>>> tags = soup.findAll('a', href=True)
>>> for tag in tags: tag.renderContents()
'Miss Black OCU 2011'
>>>