PySpark / Aws胶中的性能问题

时间:2019-03-01 17:52:54

标签: python apache-spark pyspark aws-glue snowflake

我有一个数据框。我需要将每个记录转换为JSON,然后使用JSON有效负载调用API以将数据插入Postgress。我在数据框中有14000条记录,要调用api并获取响应,这需要5个小时。有什么办法可以提高性能。下面是我的代码段。

df_insert = spark.read \
.format(SNOWFLAKE_SOURCE_NAME) \
.options(**sfOptions) \
.option("dbtable", "source_table_name") \
.load()

json_insert = df_insert.toJSON().collect()

for row in json_insert:
  line = json.loads(row)
    headers = {
    'Authorization': authorization,
    'content-type': "application/json",
    'cache-control': "no-cache",
    }
  response = requests.request("POST", url_insert, data=payload, headers=headers)
  print(response.text)
  res = response.text
  response_result = json.loads(res)
  #print(response_result["httpStatus"])
  if response_result["message"] == 'success':
      print ("INFO : Record inserted successfully")
  else:
      print ("ERROR : Error in the record")
      status_code = response_result["status"]
      error_message =  response_result["error"]
      my_list = [(status_code,error_message,row)]
      df = sc.createDataFrame(my_list, ['status', 'error', 'json data'])
      df.write.format(SNOWFLAKE_SOURCE_NAME) \
      .options(**sfOptions) \
      .option("dbtable", "error_table") \
      .option("header", "true") \
      .option("truncate_table", "on") \
      .mode("append") \
      .save()

注意:我知道通过执行“ json_insert = df_insert.toJSON()。collect()”,我失去了数据框的优势。有没有更好的方法可以完成?

1 个答案:

答案 0 :(得分:1)

df_insert.toJSON()返回一个RDD,您可以flatMap对其进行覆盖。 1

source_rdd = df_insert.toJSON()

对此RDD执行flatMap,并返回仅包含错误的RDD。

headers = {
    'Authorization': authorization,
    'content-type': "application/json",
    'cache-control': "no-cache"
}

def post_service_error(row):
    # requests package may not be available in the node
    # see about adding files to the spark context
    response = requests.request("POST", url_insert, data=row, headers=headers)
    response_result = response.json()
    if response_result['message'] == 'success':
        print ("INFO : Record inserted successfully")
        return []
    print ("ERROR : Error in the record")
    status_code = response_result["status"]
    error_message =  response_result["error"]
    return [(status_code, error_message, row)]

errors_rdd = source_rdd.flatMap(post_service_error)

将错误RDD转换为spark DataFrame并将其持久保存到表中。

errors_df = sc.createDataFrame(errors_rdd, ['status', 'error', 'json data'])
(errors_df.write.format(SNOWFLAKE_SOURCE_NAME)
  .options(**sfOptions)
  .option("dbtable", "error_table")
  .option("header", "true")
  .option("truncate_table", "on")
  .mode("append")
  .save())

如果您拥有要执行请求的API,建议您探索一个接受一批此类对象/数组的实现。 这样,您可以在将每个分区映射到批处理请求之前对RDD进行分区,然后再处理错误。