应用错误收集

我对通读火花的卡桑德拉有一个一般性问题。我知道spark-cassandra连接器确实会读取令牌和内容。现在考虑我们有1 TB文件要处理，并以镶木地板格式保存在s3 /存储帐户等中。我有一个群集，其中有4个节点，每个节点具有500 GB的空间，现在1TB文件将被拆分成250GB的每个节点，并分布在节点上考虑复制因子2。现在处理完成，一切都成功了。

让我们来到cassandra，那里我拥有相同的1TB数据，但是当我们读取数据时，是将数据最初复制到集群还是基于进程？现在我有100个分区，有25个进程。现在25个进程必须运行4次，在每个内核的这4次执行期间，将复制数据而不在复制完成后刷新数据吗？

cassandra上的spark读取是否将数据复制到节点中？

0 个答案: