我有一份维基百科文章列表(我在浏览器中的历史记录)。我想通过为每个内部Wikipedia超链接绘制一条线来绘制我在维基百科上访问的树。为了得到一个好的结果,我想用文章的名称来表示每个节点,对于在正文中至少有一个图像的文章,从文章中提取一个图像。
哪个图片是最佳人选?我注意到有时会出现一个名为thumbimage的图像,但情况并非总是这样。
答案 0 :(得分:1)
查看DBPedia图像数据集:
http://wiki.dbpedia.org/Downloads38#h227-1
他们为许多文章选择了代表性的形象。它们并不经常更新(我认为最新的是2012年6月,所以4个月前我正在编写),但它们做得非常好,你可以使用他们的代码库来解析自己如果你需要更多的电流数据
答案 1 :(得分:0)
我尝试从特定页面抓取相关图片时遇到了类似的经历。就我而言,我使用了og:image属性。
您可以在此处详细了解:http://ogp.me/
答案 2 :(得分:0)
另一种方法是使用HTML或维基媒体标记自己解析图像。我建议把信息框图像(如果有的话)和页面上的第一张图像失败。