应用错误收集

我编写了一些Java代码，它们使用Crawler4J来抓取一堆网页，然后使用K-Means按关键字对它们进行聚类。我想从每个集群中选择最佳图像（其中“最佳”松散地定义为“最好代表集群中的主题”），我想知道是否有任何现有的框架可以做到这一点（因为它显然是一个问题）在推出自己的新闻之前，很多人已经需要解决显示汇总的新闻等问题。

我抓取的大部分页面都是关于给定主题的标准新闻页面，因此页面的最佳图像通常是1）最大图像和2）紧邻最大文本块之前的图像。如果我必须推出自己的实现，我的暂定计划是根据这些（和其他）启发式方法从群集中的每个页面中获取最佳图像，然后根据质量（大小，链接文本，每个图像的名称，文档中的位置）以及它来自的页面质量。

总而言之，我的问题有两个：是否有任何现有的开源框架（最好用Java实现）可以帮助完成我的任务，是否有比我提议的方法更好的方法？谢谢！

从网页群中提取最佳图像

1 个答案: