提取不带类或ID

时间:2017-06-29 17:30:37

标签: beautifulsoup bs4

我正在尝试使用Beautiful Soup从以下html中提取日期

 <tr class="TTRow">
        <td>
        <a class="tablebluelink" href="" target="_blank">517330</a></td>
        <td class="TTRow_left">CMI</td>
        <td>29 Jun 2017</td>
    </tr>

我认为这会起作用

r=urllib.urlopen('http://www.bseindia.com/corporates/Forth_Results.aspx?expandable=0').read()
soup=BeautifulSoup(r)
companies= soup.findAll("tr", class_= "TTRow")
i=0
for company in companies:
    upcoming_company_results[i]=str(company.find("td",class_="TTRow_left").text)
    date[i]=str(company.find("td").text)
    i=i+1

但它给出了带有class =&#34; tablbluelink&#34;的文本。对于日期[i]而不是日期。 如何提取日期&#34; 2017年6月29日&#34;形成它。

1 个答案:

答案 0 :(得分:0)

我使用了内容,请使用此答案以便更好地参考Python BeautifulSoup extract text between element

for company in companies:
    upcoming_company_results[i]=str(company.find("td",class_="TTRow_left").text)
    date[i]= str(company.contents[3].text)
    i=i+1