如何从维基百科页面中提取所有图像链接?

时间:2014-09-23 23:36:14

标签: python google-app-engine screen-scraping wikipedia wikimedia-commons

我正试图通过Python Wikipedia module将卡拉瓦乔等着名画家的维基媒体页面中的所有链接拉出来。

import wikipedia
page = wikipedia.page("caravaggio")
links = page.links

但是,.links方法只返回链接标题,而不是我可以用来在我的页面上显示图像的实际hrefsrc

为此使用import beautifulsoup会更好吗?

1 个答案:

答案 0 :(得分:2)

检查出来:

#!/usr/bin/python

import wikipedia
page = wikipedia.page("caravaggio")
#links = page.links
#for tuple_ in page:
#    print tuple_
#print dir(page)
print page.content
#print page.coordinates
print 'page.html'
print page.html
print
print 'page.images'
print page.images
print
print 'page.links'
print page.links
print
print 'page.original_title'
print page.original_title
print
print 'page.pageid'
print page.pageid
print
print 'page.parent_id'
print page.parent_id
print
print 'page.references'
print page.references
print
print 'page.revision_id'
print page.revision_id
print
print 'page.section'
print page.section
print
print 'page.sections'
print page.sections
print
print 'page.summary'
print page.summary
print
print 'page.title'
print page.title
print
print 'page.url'
print page.url
print
#print links