从html提取文本和链接不适用于bs4

时间:2019-12-28 12:13:43

标签: beautifulsoup

我正在努力通过bs4获得wikipedia.com和上面文本中的名称“ John Martin”。我是bs4的新手。

<div class="section" qualifer="allnames">
  <div class="container container-2">
   <div class="title">
     <h1 class="title1">
       This is a test
     </h1>
   </div>
   <div class="tile3">
     <a class="title4" href="wikipedia.com" title="John Martin">

我尝试过

link = soup.find('div', class_='title4')
link = link.a.text()
print(link)

有人可以帮忙吗?如何从上面的代码中获取链接和名称?

1 个答案:

答案 0 :(得分:1)

您快到了。试试:

link = soup.find_all('a', class_='title4')
for l in link:
    print(l['title'])
    print(l['href'])

输出:

  

约翰·马丁

     

wikipedia.com