我想使用BeautifulSoup废弃以下html模式。 html模式是:
<a href="link" target="_blank" onclick="blah blah blah">TITLE</a>
我想抓住TITLE以及链接中显示的信息。也就是说,如果您单击该链接,则会有一个TITLE的描述。我想要那个描述。
我开始尝试使用以下代码获取标题:
import urllib
from bs4 import BeautifulSoup
import re
webpage = urrlib.urlopen("http://urlofinterest")
title = re.compile('<a>(.*)</a>')
findTitle = re.findall(title,webpage)
print findTile
我的输出是:
% python beta2.py
[]
所以这显然甚至没有找到标题。我甚至尝试过<a href>(.*)</a>
但这都行不通。基于我对文档的阅读,我认为BeautifulSoup会抓住我给它的符号之间的任何文本。在这种情况下,那么我做错了什么?
答案 0 :(得分:1)
你怎么进口beautifulsoup然后根本不使用它?
webpage = urrlib.urlopen("http://urlofinterest")
您需要从中读取数据,以便:
webpage = urrlib.urlopen("http://urlofinterest").read()
类似的东西(应该让你更进一步):
>>> blah = '<a href="link" target="_blank" onclick="blah blah blah">TITLE</a>'
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(blah) # change to webpage later
>>> for tag in soup('a', href=True):
print tag['href'], tag.string
link TITLE