标签: apache-spark spark-streaming parquet snappy
我有兴趣使用Snappy Parquet来使用Spark Streaming来保存事件。 我正在考虑Parquet的柱状性质和Snappy的压缩,我认为它们在一次一个地写入事件或一次一个微批处理的情况下可能没有价值。 我没有特别体验过Snappy和Parquet,但是使用其他压缩算法和柱状数据库,他们通常都需要大块数据才能生效。 我的担忧是否合理?这个场景中的一般建议是什么?