应用错误收集

镶木地板VS数据库

时间：2017-11-05 21:37:36

标签： apache-spark parquet

我试图了解下面两个中的哪一个会更好，尤其是在Spark环境中：

将镶木地板文件直接加载到数据框中并访问数据（数据表的1TB）
使用任何数据库存储和访问数据。

我正致力于数据管道设计，并试图了解上述两个选项中的哪一个将带来更优化的解决方案。

1 个答案:

答案 0 :(得分：0)

与通过JDBC连接器读取Oracle等RDBMS相比，将镶木地板文件直接加载到数据框中并访问数据更具可扩展性。我处理的数据更多的是10TB，但我更喜欢ORC格式以获得更好的性能。我建议您必须直接读取文件中的数据，原因是数据位置 - 如果您在相同的主机上运行Spark执行程序，HDFS数据节点位于该主机上，并且可以在没有网络开销的情况下有效地将数据读入内存。请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html以及Apache Spark如何了解HDFS数据节点？了解更多详情。