HREF值使用BS4在网页中搜索

时间:2013-01-08 15:59:35

标签: python beautifulsoup

我正在开发第三方应用程序,其中我已阅读网页源内容的视图。从那里我们只需收集一些href内容值,其格式类似于/aems/file/filegetrevision.do?fileEntityId。可能吗?我给了我所有的href值。

HTML * (HTML的一部分) *

<td width="50%">
<a href="/aems/file/filegetrevision.do?fileEntityId=10597525&cs=9b7sjueBiWLBEMj2ZU4I6fyQoPv-g0NLY9ETqP0gWk4.xyz">
screenshot.doc
</a>
</td>

CODE

for a in soup.find_all('a', {"style": "display:inline; position:relative;"}, href=True):
    href = a['href'].strip()
    href = "https://xyz.test.com/" + href
print(href)

由于

谢谢,

1 个答案:

答案 0 :(得分:2)

是的,只需对href属性使用适当的过滤器即可。像

def filter(href):
    return '/aems/file/filegetrevision' in href

soup.find_all('a', href=filter)

除了功能之外,您还可以使用RegexObject个对象作为过滤器:

filter = re.compile(some_regular_expression)
soup.find_all('a', href=filter)

请参阅文档:Kind of filters