Question

我正在尝试从网上抓取图像信息，我想知道是否有任何方法可以提取图像文件名。例如，如果以下HTML表达式存储在源中，

 <img src=http://www.adbongo.com/wp-content/uploads/2013/09/digital-bongo.jpg>,

我想提取digital-bongo.jpg部分。

谢谢，

Answer 1

import os
>>> path,file_=os.path.split('http://www.adbongo.com/wp-content/uploads/2013/09/digital-bongo.jpg')
>>> file_
'digital-bongo.jpg'

Answer 2

使用BeautifulSoup。这将拉动所有链接; .jpg，.gif，.png等。然后您可以使用进一步的代码细化来获得只是 jpg或gif或其他......

import urllib2
from bs4 import BeautifulSoup

url1 = "http://www.thrashermagazine.com"
content1 = urllib2.urlopen(url1).read()
soup = BeautifulSoup(content1)
for link in soup.findAll('img'):
   print link.get('src')
### or alternatively ###
for link in soup.findAll('img'):
   stuff = link.get('src')
   if '.jpg' in stuff:
      print stuff         #This will only print results with .jpg

*只需将您的网址放在那里。我以此为例。

Answer 3

命名html内容 htmlcontent 的来源，然后使用 lxml 来解析页面：

>>> from lxml import etree
>>> html = etree.HTML(htmlcontent)
>>> for node in html.xpath('//img/@src'):
...     print(node.text.rsplit('/', 1)[1])

从Web中提取图像文件名

3 个答案: