从另一个href内的href提取链接-嵌套链接(?)

时间:2019-04-12 18:02:13

标签: html web-scraping beautifulsoup screen-scraping

我不确定我是否正确地问了这个问题,但是我遇到了以前从未见过的事情(FWIW),并且由于研究没有提出完全像这样的事情,所以感到困惑: >

尝试scrape certain links from this page。我经历了平常的

r = requests.get(url)
html = r.text
soup =  bs4(html, "lxml")

我试图找到某些链接,

exh = soup.find_all('a')

输出包含几个常用的格式URL,但是许多URL具有以下格式(随机选择):

exhibit103.htm

在Firefox页面上,此条目如下所示:

enter image description here

请注意,该条目似乎不可点击,但是如果将鼠标悬停在该条目上,it flashes the actual underlying link

本节中我认为html / css相关部分的内容如下:

<td>
  <div>
      <a style="-sec-extract:exhibit;"href="exhibit103.htm">
       <span>Amendment Two [etc.]
           </span>
      </a>
   </div>
</td>

在我不了解情况的情况下,它看起来像另一个href /嵌套链接中的href。因此,一般的问题是-为什么有人会为此烦恼?对我而言,更重要的是如何使用BeautifulSoup(或任何其他方法)提取实际链接?

0 个答案:

没有答案