使用spark

时间:2015-09-24 07:10:27

标签: apache-spark spark-streaming rrdtool

我有大量的时间序列数据,这些数据是存储在S3中的.rrd(循环数据库)格式。我计划使用apache spark来运行分析,以获得不同的性能矩阵。

目前我正在从s3下载.rrd文件并使用rrd4j库处理它。我会像一年或更长时间一样处理更长期的工作。它涉及处理数十万个.rrd文件。我希望spark节点直接从s3获取文件并运行分析。 如何使用rrd4j来读取.rrd文件?有没有图书馆可以帮助我做到这一点? 处理这类数据有什么支持吗?

1 个答案:

答案 0 :(得分:1)

火花部分非常简单,在wholeTextFiles上使用binaryFilessparkContext(请参阅docs)。根据文档,rrd4j通常需要一个构建rrd的路径,但是使用RrdByteArrayBackend,您可以在那里加载数据 - 但这可能是一个问题,因为大多数API都受到保护。您必须找到将Array[Byte]加载到rrd4j的方法。