我不确定我是否正确地问了这个问题,但是我遇到了以前从未见过的事情(FWIW),并且由于研究没有提出完全像这样的事情,所以感到困惑: >
尝试scrape certain links from this page。我经历了平常的
r = requests.get(url)
html = r.text
soup = bs4(html, "lxml")
我试图找到某些链接,
exh = soup.find_all('a')
输出包含几个常用的格式URL,但是许多URL具有以下格式(随机选择):
exhibit103.htm
在Firefox页面上,此条目如下所示:
请注意,该条目似乎不可点击,但是如果将鼠标悬停在该条目上,it flashes the actual underlying link。
本节中我认为html / css相关部分的内容如下:
<td>
<div>
<a style="-sec-extract:exhibit;"href="exhibit103.htm">
<span>Amendment Two [etc.]
</span>
</a>
</div>
</td>
在我不了解情况的情况下,它看起来像另一个href
/嵌套链接中的href
。因此,一般的问题是-为什么有人会为此烦恼?对我而言,更重要的是如何使用BeautifulSoup(或任何其他方法)提取实际链接?