当使用Beautiful Soup存在多个相似标签时,从特定HTML标签中提取文本

时间:2017-04-22 06:09:03

标签: html python-3.x web-scraping beautifulsoup

您好我想从网页的部分单独提取Date and Time ,如下所示:

<div class = "small-text">
    <span id = "ct100900>
       <span>
          <span id = "ct100100"></span>
       </span>
    </span>
    <small>
        Feb 13, 2017 05:10 PM
    </small>
    <small class = "total-views">
       <span class = "ct7890">900 views</span>
    </small>
    <small class = "dummy"></small>        
</div>

我只需要使用 date and time alone 提取并打印Feb 13, 2017 05:10 PM Beautiful Soup and Python3 。这是我的代码:

    timeFull = soup.find("div",{"class": "small-text"})
    print(timeFull.text)

但在执行时,该程序会同时打印 Feb 13, 2017 05:10 PM 900 views 。使用BeautifulSoup和Python 3提取date and time alone应该怎么做?

1 个答案:

答案 0 :(得分:1)

我不认识汤,不得不接受它。也许这会奏效?

menuImage = SDL_LoadBMP("C:\\Users\\Liam C\\Documents\\Visual Studio 2015\\Projects\\graphicsPractice\\graphicsPractice\\ForehalenIntro_Screen.bmp");
// OR
menuImage = SDL_LoadBMP("C:/Users/Liam C/Documents/Visual Studio 2015/Projects/graphicsPractice/graphicsPractice/ForehalenIntro_Screen.bmp");

这里的问题是你用类&#34;小文&#34;选择div的文本。因为这个div有多个元素,所以它返回所有元素。您需要应用第二个过滤器来获取日期。由于日期存储在唯一没有类的小标签中,因此您可以使用该组合。