如何从python中的href中提取值?

时间:2017-11-07 13:08:53

标签: python-3.x xpath web-crawler

  1. 嗨开发者。我在python中提取href值时遇到了问题。
  2. 点击“查看答案”后,我有一个按钮,它带我下一个链接,我想提取该链接中的数据。

    <div class="col-md-11 col-xs-12">
    <a href="https://www.marham.pk/forum/thread/4471/i-need-a-good-orthopedic- dr">
    <div class="hover-div">
    <h2 itemprop="name">i need a good Orthopedic dr</h2>
    
    </div>
    </a>
    <div class="thread-details">
    <a href="https://www.marham.pk/forum/thread/4471/i-need-a-good-orthopedic-dr">
    <p class="pull-left"><span class="glyphicon glyphicon-comment"></span> View Answers (<span itemprop="answerCount">1</span>) </p>
            </a>
    </div>
    </div>
    
  3. 我需要提取这个href标签。

1 个答案:

答案 0 :(得分:0)

您可以在Python中使用数据抓取。 Beautiful Soup是一个Python库,用于从HTML和XML文件中提取数据。

  

将bs4导入为bs

     

import urllib.request

     

sauce = urllib.request.urlopen(“你的网址将在这里”)。阅读()

     

汤= bs.BeautifulSoup(酱汁,'html5lib')

     

打印(汤)