spark会在单个worker中处理大文件

时间:2016-09-03 09:21:54

标签: apache-spark spark-dataframe databricks

  1. 使用Apache Spark处理大型文件时,例如sc.textFile("somefile.xml"),它是否将它拆分为跨执行程序的并行处理,还是作为单个执行程序中的单个块处理?< / p>

  2. 使用数据框时,来自Databricks的implicit XMLContext是否为此类大型数据集处理预先构建了优化?

1 个答案:

答案 0 :(得分:1)

  1. 取决于文件。如果文件格式是可拆分的,并且文件大于配置的拆分大小,则将在多个执行程序上处理。
  2. XML源不解析完整的XML。它只是标识rowTag
  3. 中配置的行标记