镶木地板VS数据库

时间:2017-11-05 21:37:36

标签: apache-spark parquet

我试图了解下面两个中的哪一个会更好,尤其是在Spark环境中:

  1. 将镶木地板文件直接加载到数据框中并访问数据(数据表的1TB)
  2. 使用任何数据库存储和访问数据。
  3. 我正致力于数据管道设计,并试图了解上述两个选项中的哪一个将带来更优化的解决方案。

1 个答案:

答案 0 :(得分:0)

与通过JDBC连接器读取Oracle等RDBMS相比,将镶木地板文件直接加载到数据框中并访问数据更具可扩展性。我处理的数据更多的是10TB,但我更喜欢ORC格式以获得更好的性能。我建议您必须直接读取文件中的数据,原因是数据位置 - 如果您在相同的主机上运行Spark执行程序,HDFS数据节点位于该主机上,并且可以在没有网络开销的情况下有效地将数据读入内存。请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html以及Apache Spark如何了解HDFS数据节点?了解更多详情。