应用错误收集

使用spark

时间：2015-09-24 07:10:27

标签： apache-spark spark-streaming rrdtool

我有大量的时间序列数据，这些数据是存储在S3中的.rrd（循环数据库）格式。我计划使用apache spark来运行分析，以获得不同的性能矩阵。

目前我正在从s3下载.rrd文件并使用rrd4j库处理它。我会像一年或更长时间一样处理更长期的工作。它涉及处理数十万个.rrd文件。我希望spark节点直接从s3获取文件并运行分析。如何使用rrd4j来读取.rrd文件？有没有图书馆可以帮助我做到这一点？处理这类数据有什么支持吗？

1 个答案:

答案 0 :(得分：1)

火花部分非常简单，在wholeTextFiles上使用binaryFiles或sparkContext（请参阅docs）。根据文档，rrd4j通常需要一个构建rrd的路径，但是使用RrdByteArrayBackend，您可以在那里加载数据 - 但这可能是一个问题，因为大多数API都受到保护。您必须找到将Array[Byte]加载到rrd4j的方法。