cassandra上的spark读取是否将数据复制到节点中?

时间:2018-10-08 08:07:12

标签: apache-spark amazon-s3 cassandra

我对通读火花的卡桑德拉有一个一般性问题。我知道spark-cassandra连接器确实会读取令牌和内容。 现在考虑我们有1 TB文件要处理,并以镶木地板格式保存在s3 /存储帐户等中。我有一个群集,其中有4个节点,每个节点具有500 GB的空间,现在1TB文件将被拆分成250GB的每个节点,并分布在节点上考虑复制因子2。现在处理完成,一切都成功了。

让我们来到cassandra,那里我拥有相同的1TB数据,但是当我们读取数据时,是将数据最初复制到集群还是基于进程?现在我有100个分区,有25个进程。现在25个进程必须运行4次,在每个内核的这4次执行期间,将复制数据而不在复制完成后刷新数据吗?

0 个答案:

没有答案