如何从随机文章中提取主图像?

时间:2014-01-10 06:19:20

标签: machine-learning web-scraping beautifulsoup news-feed

我正在尝试建立一个新闻聚合系统,我必须每天处理来自新闻门户网站的网页。如何从网页中提取新闻文章的主要图像,而无需为每个门户网站编写html提取处理程序。当大多数页面中有10-15个随机广告和侧面图像时,我怎么能猜出文章的主要图像是哪一个。我尝试在每个页面中选择最大的图像,但效果不佳并且给出了许多误报

1 个答案:

答案 0 :(得分:0)

网站上没有“主要”图像。这个概念完全依赖于上下文,就新闻而言,它可能是“与文本相关的图像”,但这是非常具体的情况 - 如果新闻中有很多图像显示某些情况怎么办?

由于很难定义你的真正含义,基于机器学习的方法似乎是合理的,因为“逐个学习”应该更容易做到。

我会提取每张图片最有希望的功能:

  • 与其他人的相对大小
  • 与网页DOM中新闻容器的距离
  • 其名称是否包含“新闻”等关键字; “主”
  • 是否不包含“广告”,“徽标”,“菜单”等“坏”关键字

然后在一些收集的样本上训练最简单的分类器(贝叶斯或Logistic回归)。