我正在尝试从网上抓取图像信息,我想知道是否有任何方法可以提取图像文件名。例如,如果以下HTML表达式存储在源中,
<img src=http://www.adbongo.com/wp-content/uploads/2013/09/digital-bongo.jpg>,
我想提取digital-bongo.jpg
部分。
谢谢,
答案 0 :(得分:3)
import os
>>> path,file_=os.path.split('http://www.adbongo.com/wp-content/uploads/2013/09/digital-bongo.jpg')
>>> file_
'digital-bongo.jpg'
答案 1 :(得分:0)
使用BeautifulSoup。这将拉动所有链接; .jpg,.gif,.png等。然后您可以使用进一步的代码细化来获得只是 jpg或gif或其他......
import urllib2
from bs4 import BeautifulSoup
url1 = "http://www.thrashermagazine.com"
content1 = urllib2.urlopen(url1).read()
soup = BeautifulSoup(content1)
for link in soup.findAll('img'):
print link.get('src')
### or alternatively ###
for link in soup.findAll('img'):
stuff = link.get('src')
if '.jpg' in stuff:
print stuff #This will only print results with .jpg
*只需将您的网址放在那里。我以此为例。
答案 2 :(得分:0)
命名html内容 htmlcontent 的来源,然后使用 lxml 来解析页面:
>>> from lxml import etree
>>> html = etree.HTML(htmlcontent)
>>> for node in html.xpath('//img/@src'):
... print(node.text.rsplit('/', 1)[1])