我有一个Pandas数据框,我想调用API并从该数据框传递一些参数。然后,我从API获取结果,并从中创建一个新列。这是我的工作代码:
import http.client, urllib.request, urllib.parse, urllib.error, base64
import pandas as pd
import json
headers = {
# Request headers
'Content-Type': 'application/json',
'Ocp-Apim-Subscription-Key': 'my-api-key-goes-here',
}
params = urllib.parse.urlencode({
})
df = pd.read_csv('mydata.csv',names=['id','text'])
def call_api(row):
try:
body = {
"documents": [
{
"language": "en",
"id": row['id'],
"text": row['text']
}
]
}
conn = http.client.HTTPSConnection('api-url')
conn.request("POST", "api-endpoint" % params, str(body), headers)
response = conn.getresponse()
data = response.read()
data = json.loads(data)
return data['documents'][0]['score']
conn.close()
except Exception as e:
print("[Errno {0}] {1}".format(e.errno, e.strerror))
df['score'] = df.apply(call_api,axis=1)
以上方法效果很好。但是,我可以执行的api请求数量受到限制,并且通过在body['documents']
列表中添加更多内容,API使我可以在同一请求中最多发送100个文档。
返回的数据遵循以下模式:
{
"documents": [
{
"score": 0.92,
"id": "1"
},
{
"score": 0.85,
"id": "2"
},
{
"score": 0.34,
"id": "3"
}
],
"errors": null
}
所以,我要寻找的是不逐行应用相同的api调用,而是每次以100行为单位。在Pandas中有什么方法可以执行此操作,还是应该对数据框行进行迭代,自己创建批处理,然后再次进行迭代以将返回的值添加到新列上?
答案 0 :(得分:2)
DataFrame.apply()
很慢;我们可以做得更好。这将一口气创建“文档”字典列表:
df.to_dict('records')
然后您要做的就是将其分成100个块:
start = 0
while start < len(df):
documents = df.iloc[start:start+100].to_dict('records')
call_api(documents)
start += 100
最后,您可以将一个HTTP会话与requests
库一起使用:
import requests
session = requests.Session()
call_api(session, documents)
然后在call_api()
内执行session.post(...)
。这比每次都建立一个新的连接更为有效。