Python正则表达式切片

时间:2010-09-25 05:40:47

标签: python html regex

我正在尝试使用以下示例代码获取网页:

from urllib import urlopen
print urlopen("http://www.php.net/manual/en/function.gettext.php").read()

现在我可以将整个网页放在一个变量中。我想得到包含这样的内容的页面的一部分

<div class="methodsynopsis dc-description">
   <span class="type">string</span><span class="methodname"><b>gettext</b></span> ( <span class="methodparam"><span class="type">string</span> <tt class="parameter">$message</tt></span>
   )</div>

这样我就可以生成一个文件来在另一个应用程序中实现。 我想能够提取单词“string”,“gettext”和“$ message”。

2 个答案:

答案 0 :(得分:2)

为什么不尝试使用BeautifulSoup

示例代码:

from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(htmldoc)
allSpans = soup.findAll('span', class="type")
for element in allSpans:
    ....

答案 1 :(得分:1)

从HTML中提取信息时,不建议一起破解一些正则表达式。 正确的方法是使用正确的HTML解析模块。 Python有几个很好的模块用于此目的 - 特别是我推荐BeautifulSoup

不要被名字拖延 - 这是一个非常成功的很多人使用的严肃模块。 documentation page有很多例子可以帮助您开始满足您的特定需求。