Question

我想使用BeautifulSoup废弃以下html模式。 html模式是：

<a href="link" target="_blank" onclick="blah blah blah">TITLE</a>

我想抓住TITLE以及链接中显示的信息。也就是说，如果您单击该链接，则会有一个TITLE的描述。我想要那个描述。

我开始尝试使用以下代码获取标题：

import urllib
from bs4 import BeautifulSoup
import re

webpage = urrlib.urlopen("http://urlofinterest")

title = re.compile('<a>(.*)</a>')
findTitle = re.findall(title,webpage)
print findTile

我的输出是：

% python beta2.py
[]

所以这显然甚至没有找到标题。我甚至尝试过<a href>(.*)</a>但这都行不通。基于我对文档的阅读，我认为BeautifulSoup会抓住我给它的符号之间的任何文本。在这种情况下，那么我做错了什么？

Answer 1

你怎么进口beautifulsoup然后根本不使用它？

webpage = urrlib.urlopen("http://urlofinterest")

您需要从中读取数据，以便：

webpage = urrlib.urlopen("http://urlofinterest").read()

类似的东西（应该让你更进一步）：

>>> blah = '<a href="link" target="_blank" onclick="blah blah blah">TITLE</a>'
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(blah) # change to webpage later
>>> for tag in soup('a', href=True):
    print tag['href'], tag.string

link TITLE

咨询：美丽的汤+一个href模式不像我想要刮

1 个答案: