我使用scrapy spiders来抓取IMDb网站上的IMDb ID。 所以现在,我将使用IMDb API网站&我收集的IMDb ID用于构建字典并将其保存到json文件中。
import requests
import json
def query_url(id):
#query_url = 'http://www.omdbapi.com/?i='+id+'&plot=short&r=json'
return query_url
def get_movie_ids(input_file):
#id_list= []
#with open (input_file, 'r') as f:
#for line in f:
#id_list.append(line.strip()) # sth like ['tt0407887', 'tt1212123', ... ]
return id_list
def get_all_data(in_file, out_file):
movie_data_dict = {}
movie_ids = get_movie_ids(in_file)
id_counter = 0
session = requests.Session()
for id in movie_ids:
url = query_url(id)
#try:
#movie_data = session.get(url).json() # to catch corrupted json file
#except ValueError:
#pass
movie_data_dict[id_counter] = movie_data
id_counter += 1
with open(out_file, 'w+') as f:
json.dump(movie_data_dict, f)
if __name__ == '__main__':
movie_id_file = r'../IMDbIDCrawler/movie_id10-15' # the IMDb ID crawled by Scrapy
movie_data_file = 'IMDb2010-2015.json'
get_all_data(movie_id_file, movie_data_file)
当我在命令提示符下运行代码时,代码根本不会运行。 我不知道我在上面的脚本中做错了什么..
这是一个Python作业。因此,#标记的代码由我编写,而其他代码首先提供。这就是事情......课程的速度非常快,我无法赶上课程。我没有人要求。所以,如果我问一些非常愚蠢/初学者的问题,请原谅我............