BeautifulSoup返回<a>标签的一些奇怪的文本

时间:2019-06-13 19:15:25

标签: python html beautifulsoup python-requests

我是网络抓取的新手,我正试图从该拍卖网站上抓取数据。但是,在尝试获取anchor标签的文本时,我遇到了这个奇怪的问题。

这是HTML:

func tableView(_ tableView: UITableView, cellForRowAt indexPath: IndexPath) -> UITableViewCell {
    if indexPath.row == 0 {
        let cell = tableView.dequeueReusableCell(withIdentifier: "firstTableCell") as! FirstTableCell
        // Set up cell.label
        return cell
    } else if indexPath.row == 1 {
        let cell = tableView.dequeueReusableCell(withIdentifier: "secondTableCell") as! SecondTableCell
        // Set up cell.button
        return cell
    } else {
        let cell = tableView.dequeueReusableCell(withIdentifier: "thirdTableCell") as! ThirdTableCell
        // Set up cell.textField
        return cell
    }
}

这是我的代码:

<div class="mt50">
  <div class="head_011">
    <a id="item_event_title" href="https://www.storyltd.com/auction/auction.aspx?eid=4158">NO RESERVE AUCTION OF MODERN AND CONTEMPORARY ART  (16-17 APRIL 2019)</a>
  </div>
</div>

这打印出“返回拍卖目录” 而不是“现代和当代艺术没有保留拍卖(2019年4月16日至17日)” 在期待。

Here's the link到页面。

谢谢。

1 个答案:

答案 0 :(得分:1)

以下是从网页中提取NO RESERVE AUCTION OF MODERN AND CONTEMPORARY ART (16-17 APRIL 2019)'的方法:

from bs4 import BeautifulSoup
import requests

page_link = 'https://www.storyltd.com/auction/item.aspx?eid=4158&amp&lotno=2'
page_response = requests.get(page_link, timeout=5)
page_content = BeautifulSoup(page_response.content, "html.parser")
page_content.find("input", attrs={"id":"hdnAuctionTitle"}).attrs['value']

输出:

NO RESERVE AUCTION OF MODERN AND CONTEMPORARY ART  (16-17 APRIL 2019)

当您检查page_content时,您会发现该句子出现在输入标签中。

希望对您有帮助!