我正在开发第三方应用程序,其中我已阅读网页源内容的视图。从那里我们只需收集一些href
内容值,其格式类似于/aems/file/filegetrevision.do?fileEntityId
。可能吗?我给了我所有的href
值。
HTML * (HTML的一部分) *
<td width="50%">
<a href="/aems/file/filegetrevision.do?fileEntityId=10597525&cs=9b7sjueBiWLBEMj2ZU4I6fyQoPv-g0NLY9ETqP0gWk4.xyz">
screenshot.doc
</a>
</td>
CODE
for a in soup.find_all('a', {"style": "display:inline; position:relative;"}, href=True):
href = a['href'].strip()
href = "https://xyz.test.com/" + href
print(href)
由于
谢谢,
答案 0 :(得分:2)
是的,只需对href
属性使用适当的过滤器即可。像
def filter(href):
return '/aems/file/filegetrevision' in href
soup.find_all('a', href=filter)
除了功能之外,您还可以使用RegexObject
个对象作为过滤器:
filter = re.compile(some_regular_expression)
soup.find_all('a', href=filter)
请参阅文档:Kind of filters