我有大量的时间序列数据,这些数据是存储在S3中的.rrd(循环数据库)格式。我计划使用apache spark来运行分析,以获得不同的性能矩阵。
目前我正在从s3下载.rrd文件并使用rrd4j库处理它。我会像一年或更长时间一样处理更长期的工作。它涉及处理数十万个.rrd文件。我希望spark节点直接从s3获取文件并运行分析。 如何使用rrd4j来读取.rrd文件?有没有图书馆可以帮助我做到这一点? 处理这类数据有什么支持吗?
答案 0 :(得分:1)
火花部分非常简单,在wholeTextFiles
上使用binaryFiles
或sparkContext
(请参阅docs)。根据文档,rrd4j通常需要一个构建rrd的路径,但是使用RrdByteArrayBackend
,您可以在那里加载数据 - 但这可能是一个问题,因为大多数API都受到保护。您必须找到将Array[Byte]
加载到rrd4j的方法。