通过pyspark将数据写入kudu

时间:2020-05-18 04:14:45

标签: pyspark kudu

我正在使用Spark版本2.11和Apache Kudu版本1.10。 我正在尝试配置pyspark流以写入Apache Kudu,但是写入速度始终太慢,大约10000item / s。 查看随附的屏幕截图 https://i.stack.imgur.com/jekyU.png

我有以下配置memory_limit_hard_bytes=5Gblock_cache_capacity_mb=2G,我认为这就足够了。

我有此配置,我需要知道如何对其进行修改吗?

df.writeStream \
        .format("org.apache.kudu.spark.kudu") \
        .option('kudu.master', base.KUDU_MASTER)\
        .option('kudu.table',"test_table") \
        .option("checkpointLocation", "/user/hive/spark_offset/kudu_test") \
        .trigger(processingTime='30 seconds') \
        .outputMode("append") \
        .start()

0 个答案:

没有答案