我正在使用Spark版本2.11和Apache Kudu版本1.10。 我正在尝试配置pyspark流以写入Apache Kudu,但是写入速度始终太慢,大约10000item / s。 查看随附的屏幕截图 https://i.stack.imgur.com/jekyU.png
我有以下配置memory_limit_hard_bytes=5G
和block_cache_capacity_mb=2G
,我认为这就足够了。
我有此配置,我需要知道如何对其进行修改吗?
df.writeStream \
.format("org.apache.kudu.spark.kudu") \
.option('kudu.master', base.KUDU_MASTER)\
.option('kudu.table',"test_table") \
.option("checkpointLocation", "/user/hive/spark_offset/kudu_test") \
.trigger(processingTime='30 seconds') \
.outputMode("append") \
.start()