咨询:美丽的汤+一个href模式不像我想要刮

时间:2013-02-02 17:57:29

标签: python python-2.7 beautifulsoup

我想使用BeautifulSoup废弃以下html模式。 html模式是:

<a href="link" target="_blank" onclick="blah blah blah">TITLE</a>

我想抓住TITLE以及链接中显示的信息。也就是说,如果您单击该链接,则会有一个TITLE的描述。我想要那个描述。

我开始尝试使用以下代码获取标题:

import urllib
from bs4 import BeautifulSoup
import re

webpage = urrlib.urlopen("http://urlofinterest")

title = re.compile('<a>(.*)</a>')
findTitle = re.findall(title,webpage)
print findTile

我的输出是:

% python beta2.py
[]

所以这显然甚至没有找到标题。我甚至尝试过<a href>(.*)</a>但这都行不通。基于我对文档的阅读,我认为BeautifulSoup会抓住我给它的符号之间的任何文本。在这种情况下,那么我做错了什么?

1 个答案:

答案 0 :(得分:1)

你怎么进口beautifulsoup然后根本不使用它?

webpage = urrlib.urlopen("http://urlofinterest")

您需要从中读取数据,以便:

webpage = urrlib.urlopen("http://urlofinterest").read()

类似的东西(应该让你更进一步):

>>> blah = '<a href="link" target="_blank" onclick="blah blah blah">TITLE</a>'
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(blah) # change to webpage later
>>> for tag in soup('a', href=True):
    print tag['href'], tag.string

link TITLE