我正在尝试使用BeautifulSoup
解析HTML页面,该页面包含文本文件,以.txt
扩展名结尾。我想解析HTML,并获取以.txt
结尾的字符串。
所有此类字符串都在<a href>
标记内,以下是一些示例:
<a href = "foo.txt">
<a href = "bar.txt">
如何获取foo.txt
和bar.txt
。
我这样做了:
>>> links = soup.findAll('a')
但是我找不到如何提取完整的字符串...有什么建议吗?
答案 0 :(得分:5)
BeautifulSoup接受regexps作为参数形式find()
和findAll()
这应该有效:
links = soup.findAll(href=re.compile("\.txt$"))