我试图了解下面两个中的哪一个会更好,尤其是在Spark环境中:
我正致力于数据管道设计,并试图了解上述两个选项中的哪一个将带来更优化的解决方案。
答案 0 :(得分:0)
与通过JDBC连接器读取Oracle等RDBMS相比,将镶木地板文件直接加载到数据框中并访问数据更具可扩展性。我处理的数据更多的是10TB,但我更喜欢ORC格式以获得更好的性能。我建议您必须直接读取文件中的数据,原因是数据位置 - 如果您在相同的主机上运行Spark执行程序,HDFS数据节点位于该主机上,并且可以在没有网络开销的情况下有效地将数据读入内存。请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html以及Apache Spark如何了解HDFS数据节点?了解更多详情。