Question

我试图抓取链接以获取标题，说明和图片，以便对文章或网页进行简要概述。目前我有og：title通过BeautifulSoup获取元属性。这适用于新闻文章。

if tag.get("property", None) == "og:title":       
        scraper.title = tag.get("content", None)

但是，links for an Amazon Echo for example，请勿提取任何图片或产品标题。我怎样才能使用BeautifulSoup和Python来完成这项工作，并从任何网站上找到第一个找到的图像和标题 - 也许不仅仅是一个opengraph支持的图像？

Answer 1

unicontent是一个试图实现这一目标的库。它将获取opengraph标签或HTML标签或其他类型的标签。我不认为它可以获得页面内的第一个图像。