使用BeautifulSoup从链接获取元数据

时间:2016-12-31 19:58:36

标签: python django amazon-web-services beautifulsoup opengraph

我试图抓取链接以获取标题,说明和图片,以便对文章或网页进行简要概述。目前我有og:title通过BeautifulSoup获取元属性。这适用于新闻文章。

if tag.get("property", None) == "og:title":       
        scraper.title = tag.get("content", None)

但是,links for an Amazon Echo for example,请勿提取任何图片或产品标题。我怎样才能使用BeautifulSoup和Python来完成这项工作,并从任何网站上找到第一个找到的图像和标题 - 也许不仅仅是一个opengraph支持的图像?

1 个答案:

答案 0 :(得分:0)

unicontent是一个试图实现这一目标的库。它将获取opengraph标签或HTML标签或其他类型的标签。我不认为它可以获得页面内的第一个图像。