我有一个Excel工作表作为输入文件。该文件包含技术领域和子技术领域以及它们各自的查询。这些查询将用于从API提取数据。
以下是设计约束:
1]要获取有关“ A”的数据,我们需要附加对“技术专区”,“子技术专区1”和“ A”的查询。 {请参考以下图片/链接} Image of Excel File
我对此的解决方案是创建一棵树并生成查询,只需遍历该树即可。
PS:我尝试使用pandas数据框为数据建模,但是我的代码在计算上非常昂贵。
要通过API发送请求,我使用了“请求”库。请帮助。
我提供了我的代码的功能,其中遍历了输入excel的列,然后进一步向API发送了查询
def create_techtree(dataframe,api_url,credentials,job_type):
subframe = dataframe.iloc[0:num_rows,2:4]
for i in range(0,num_rows-1):
entry = subframe[i:i+1]
sub_tech_area_title = entry[2]
sub_tech_area_title = str(sub_tech_area_title[i])
sub_tech_area_query = entry[3]
sub_tech_area_query = str(sub_tech_area_query[i])
if (sub_tech_area_title == 'nan') or (sub_tech_area_query == 'nan'):
while(sub_tech_area_title == 'nan'):
break
else:
print("Hurray")
#write code to download content wrt each sub tech
query = api_url + job_type + '?' + credentials + '&query=as:' + tech_area_query + 'AND ' + sub_tech_area_query + '&' + fields
download_file_path = "download path" + sub_tech_area_title + ".csv"
request_response(query,api_url,credentials,download_file_path)
我最多只能提取两个层次结构的数据(即技术领域和子技术领域)。剩下的我都面临着多重挑战。
请注意,excel文件最多可以包含5个层次的数据。