火花连接器加载vs sstableloader性能

时间:2015-10-06 03:30:35

标签: cassandra spark-cassandra-connector

我有一个火花作业,现在从HDFS中提取数据并将数据转换为平面文件以加载到Cassandra中。

cassandra表基本上是3列,但最后两列是地图集合,所以"复杂"数据结构。

现在我使用COPY命令并获得大约3k行/秒的负载,但这非常慢,因为我需要加载大约50万条记录。

我看到我可以将CSV文件转换为sstables,但我没有看到涉及地图集和/或列表的示例。

我可以使用spark连接器来cassandra加载带有地图集合和列表的数据,并获得比COPY命令更好的性能吗?

1 个答案:

答案 0 :(得分:1)

是的,对于已经在HDFS中的文件,Spark Cassandra Connector可以快得多。使用spark,您将能够分布式地抓取并写入C *。

即使没有Spark使用像https://github.com/brianmhess/cassandra-loader这样的基于java的加载器,也会显着提高速度。