machine-learning - 如何从随机文章中提取主图像？

如何从随机文章中提取主图像？

时间：2014-01-10 06:19:20

标签： machine-learning web-scraping beautifulsoup news-feed

我正在尝试建立一个新闻聚合系统，我必须每天处理来自新闻门户网站的网页。如何从网页中提取新闻文章的主要图像，而无需为每个门户网站编写html提取处理程序。当大多数页面中有10-15个随机广告和侧面图像时，我怎么能猜出文章的主要图像是哪一个。我尝试在每个页面中选择最大的图像，但效果不佳并且给出了许多误报

1 个答案:

答案 0 :(得分：0)

网站上没有“主要”图像。这个概念完全依赖于上下文，就新闻而言，它可能是“与文本相关的图像”，但这是非常具体的情况 - 如果新闻中有很多图像显示某些情况怎么办？

由于很难定义你的真正含义，基于机器学习的方法似乎是合理的，因为“逐个学习”应该更容易做到。

我会提取每张图片最有希望的功能：

与其他人的相对大小
与网页DOM中新闻容器的距离
其名称是否包含“新闻”等关键字; “主”
是否不包含“广告”，“徽标”，“菜单”等“坏”关键字

然后在一些收集的样本上训练最简单的分类器（贝叶斯或Logistic回归）。