从网页群中提取最佳图像

时间:2014-01-06 20:08:51

标签: java image web-crawler cluster-analysis

我编写了一些Java代码,它们使用Crawler4J来抓取一堆网页,然后使用K-Means按关键字对它们进行聚类。我想从每个集群中选择最佳图像(其中“最佳”松散地定义为“最好代表集群中的主题”),我想知道是否有任何现有的框架可以做到这一点(因为它显然是一个问题)在推出自己的新闻之前,很多人已经需要解决显示汇总的新闻等问题。

我抓取的大部分页面都是关于给定主题的标准新闻页面,因此页面的最佳图像通常是1)最大图像和2)紧邻最大文本块之前的图像。如果我必须推出自己的实现,我的暂定计划是根据这些(和其他)启发式方法从群集中的每个页面中获取最佳图像,然后根据质量(大小,链接文本,每个图像的名称,文档中的位置)以及它来自的页面质量。

总而言之,我的问题有两个:是否有任何现有的开源框架(最好用Java实现)可以帮助完成我的任务,是否有比我提议的方法更好的方法?谢谢!

1 个答案:

答案 0 :(得分:1)

如何从最核心的项目中选择图片?由于k-means围绕着质心分区,因此您可以将最接近质心的实例视为数据中的最佳代表。 (如果你在聚类中使用它,你会得到k-medoids)。

由于k-means可能会严重退化,您可能需要检查群集元素是否比两个群集中心之间的距离更接近群集中心。如果聚类中心比您的数据更接近彼此,那么您的k-means结果已经退化。