从Web中提取图像文件名

时间:2013-12-08 02:50:14

标签: python regex web-crawler

我正在尝试从网上抓取图像信息,我想知道是否有任何方法可以提取图像文件名。例如,如果以下HTML表达式存储在源中,

 <img src=http://www.adbongo.com/wp-content/uploads/2013/09/digital-bongo.jpg>,

我想提取digital-bongo.jpg部分。

谢谢,

3 个答案:

答案 0 :(得分:3)

import os
>>> path,file_=os.path.split('http://www.adbongo.com/wp-content/uploads/2013/09/digital-bongo.jpg')
>>> file_
'digital-bongo.jpg'

答案 1 :(得分:0)

使用BeautifulSoup。这将拉动所有链接; .jpg,.gif,.png等。然后您可以使用进一步的代码细化来获得只是 jpg或gif或其他......

import urllib2
from bs4 import BeautifulSoup

url1 = "http://www.thrashermagazine.com"
content1 = urllib2.urlopen(url1).read()
soup = BeautifulSoup(content1)
for link in soup.findAll('img'):
   print link.get('src')
### or alternatively ###
for link in soup.findAll('img'):
   stuff = link.get('src')
   if '.jpg' in stuff:
      print stuff         #This will only print results with .jpg

*只需将您的网址放在那里。我以此为例。

答案 2 :(得分:0)

命名html内容 htmlcontent 的来源,然后使用 lxml 来解析页面:

>>> from lxml import etree
>>> html = etree.HTML(htmlcontent)
>>> for node in html.xpath('//img/@src'):
...     print(node.text.rsplit('/', 1)[1])