使用Spark和Cassandra进行文件处理

时间:2015-06-19 20:40:03

标签: cassandra apache-spark

现在我正在使用Datastax Cassandra Spark Connector将Cassandra集群中的表加载到Spark集群中。现在,spark程序执行一个简单的mapreduce作业,该作业计算Cassandra表中的行数。一切都在本地设置和运行。

Spark程序适用于一个小型Cassandra表,该表具有String键作为其唯一列。当我们加载另一个具有列字符串ID的表和一个由文件数据组成的blob时,我们会得到几个错误(spark worker中的期货超时错误,驱动程序的stdout上的java内存不足异常)。

我的问题是Spark是否可以从Cassandra加载包含大约1MB blob的元素并在它们上执行mapreduce作业,或者在使用Spark mapreduce作业处理之前是否应该将元素分成更小的部分。

1 个答案:

答案 0 :(得分:0)

最初我使用'sbt run'来启动应用程序。

一旦我能够使用spark-submit启动应用程序,一切正常。所以,是的,10 MB以下的文件可以存储为blob类型的列。 Spark MapReduce快速运行了200行。