我正在尝试使用python3和beautifulsoup4为我的学校项目提取数据

时间:2016-09-02 05:04:31

标签: python-3.x web-scraping beautifulsoup html-parsing

我有很多名为marginBegin的课程。我想在整个代码中找到日期。

HTML代码:

<div class="marginBegin">
  <dl>
    <dt><label>Delivered On:</label></dt>
    <!--fsrHiddenBlockStart--><dd><!--fsrHiddenBlockStart-->
    Friday, &nbsp;06/17/2016
    at&nbsp;3:02 P.M.
      <!--fsrHiddenBlockEnd--></dd><!--fsrHiddenBlockEnd-->
  </dl>

我的结果:

  

2016年6月17日

1 个答案:

答案 0 :(得分:0)

我认为这会奏效。

from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(open("file.html"))
for link in soup.findAll("div", { "class" : "marginBegin" }):
    string= link.contents[1].findAll("dd")
    date=re.search(r'(\d+/\d+/\d+)',(str(string[0])))
    print(date.group(1))