应用错误收集

我正在使用Spark版本2.11和Apache Kudu版本1.10。我正在尝试配置pyspark流以写入Apache Kudu，但是写入速度始终太慢，大约10000item / s。查看随附的屏幕截图 https://i.stack.imgur.com/jekyU.png

我有以下配置memory_limit_hard_bytes=5G和block_cache_capacity_mb=2G，我认为这就足够了。

我有此配置，我需要知道如何对其进行修改吗？

df.writeStream \
        .format("org.apache.kudu.spark.kudu") \
        .option('kudu.master', base.KUDU_MASTER)\
        .option('kudu.table',"test_table") \
        .option("checkpointLocation", "/user/hive/spark_offset/kudu_test") \
        .trigger(processingTime='30 seconds') \
        .outputMode("append") \
        .start()

通过pyspark将数据写入kudu

0 个答案: