我有这段代码
<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">></a>
我想获取a
元素并获取href。
如何将title
属性与Next Page
我想部分匹配a
元素的title属性中的文本。
页面上有很多a
个标签与之相似,但区别在于title
属性包含"Next Page
或文字为>
。
答案 0 :(得分:2)
您必须使用Regex来完成您想要的任务。
首先将整个标记作为字符串,然后用它创建一个BeautifulSoup
对象。
然后使用.findAll
对象的BeautifulSoup
方法,如下所示
import BeautifulSoup
import re
soup = BeautifulSoup('<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">></a>')
elements = soup.findAll('a', {'title':re.compile('Next Page.')})
# get all 'a' elements with 'title' attribute as 'Next Page something' into a list
for e in elements:
if str(e.string) == '>' or e.string == '>': # check if string inside 'a' tag is '>'
print e['href']