使用BeautifulSoup获取与扩展名匹配的文件名

时间:2011-05-30 09:58:44

标签: python beautifulsoup

我正在尝试使用BeautifulSoup解析HTML页面,该页面包含文本文件,以.txt扩展名结尾。我想解析HTML,并获取以.txt结尾的字符串。

所有此类字符串都在<a href>标记内,以下是一些示例:

<a href = "foo.txt">

<a href = "bar.txt">

如何获取foo.txtbar.txt

我这样做了:

>>> links = soup.findAll('a')

但是我找不到如何提取完整的字符串...有什么建议吗?

1 个答案:

答案 0 :(得分:5)

BeautifulSoup接受regexps作为参数形式find()findAll() 这应该有效:

links = soup.findAll(href=re.compile("\.txt$"))