Flickr API会在提取所有带地理标记的照片时返回重复的照片

时间:2016-11-04 14:53:25

标签: python flickr

我尝试使用Flickr API方法flickr.photos.search()从Flickr中提取所有带地理标记的照片。这是代码:

import flickr_api
import urllib2
from flickr_api.api import flickr

flickr_api.set_keys(api_key = 'my_api_key', api_secret = 'my_api_secret')
flickr_api.set_auth_handler("AuthToken")

for i in range(1, 1700):
    photo_list = flickr.photos.search(api_key='my_api_key', has_geo=1, extras='description,license,geo,tags,machine_tags', per_page=250, page=i, min_upload_date='972518400', accuracy=12)
    f = open('xmldata1/photodata' + str(i) + '.xml','w')
    f.write(photo_list)
    f.close()

此脚本运行以为每个数据页面提供一个xml文件。每个xml文件都有250张照片数据。有1699个这样的xml文件。我获得大约420,000张照片数据,包含大量重复数据。删除重复项后,我只获得了9022个独特的图像。

我已阅读here,一次查询16页= 4000张图片是安全的,以避免重复。

我希望尽可能避免重复图像,并且我需要100,000 + 唯一地理标记图像才能进行gps聚类。

我应该在两个查询实例之间插入什么时滞? 如果我必须考虑另一种方法,请详细说明。

如果您有任何疑问,请与我们联系。任何帮助将不胜感激!

1 个答案:

答案 0 :(得分:1)

尝试使用max_upload_date和min_upload_date。保持几天的时间框架并继续将时间范围从min_upload_date转移到max_upload_date。仅在该时间范围内搜索照片。