Question

更新：请坚持这个问题。我发现这可能是Spark 1.5本身的一个问题，因为我没有使用Spark的官方版本。我会不断更新这个问题。谢谢！

最近我注意到一个奇怪的错误，当时使用Spark-CSV将CSV导入到Spark中的DataFrame。

以下是我的示例代码：

  object sparktry
  {
    def main(args: Array[String])
    {
      AutoLogger.setLevel("INFO")

      val sc = SingletonSparkContext.getInstance()
      val sql_context = SingletonSQLContext.getInstance(sc)

      val options = new collection.mutable.HashMap[String, String]()
      options += "header" -> "true"
      options += "charset" -> "UTF-8"

      val customSchema = StructType(Array(
        StructField("Year", StringType),
        StructField("Brand", StringType),
        StructField("Category", StringType),
        StructField("Model", StringType),
        StructField("Sales", DoubleType)))

      val dataFrame = sql_context.read.format("com.databricks.spark.csv")
      .options(options)
      .schema(customSchema)
      .load("hdfs://myHDFSserver:9000/BigData/CarSales.csv")

      dataFrame.head(10).foreach(x => AutoLogger.info(x.toString))
    }
  }

CarSales是一个非常小的csv。我注意到，当spark.master不是local时，将spark.executor.memory设置为16GB以上将导致DataFrame损坏。该程序的输出如下所示:(我从日志中复制了文本，在这种情况下spark.executor.memory设置为32GB）

16/03/07 12:39:50.190 INFO DAGScheduler: Job 1 finished: head at sparktry.scala:35, took 8.009183 s
16/03/07 12:39:50.225 INFO AutoLogger$: [       ,  ,      ,ries       ,142490.0]
16/03/07 12:39:50.225 INFO AutoLogger$: [       ,  ,      ,ries       ,112464.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,      ,ries       ,90960.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,      ,ries       ,100910.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,      ,ries       ,94371.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,      ,ries       ,54142.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,       ,ries       ,14773.0]
16/03/07 12:39:50.226 INFO AutoLogger$: [       ,  ,       ,ries       ,12276.0]
16/03/07 12:39:50.227 INFO AutoLogger$: [       ,  ,       ,ries       ,9254.0]
16/03/07 12:39:50.227 INFO AutoLogger$: [       ,  ,       ,ries       ,12253.0]

虽然文件的前10行是：

1/1/2007,BMW,Compact,BMW 3-Series,142490.00
1/1/2008,BMW,Compact,BMW 3-Series,112464.00
1/1/2009,BMW,Compact,BMW 3-Series,90960.00
1/1/2010,BMW,Compact,BMW 3-Series,100910.00
1/1/2011,BMW,Compact,BMW 3-Series,94371.00
1/1/2007,BMW,Compact,BMW 5-Series,54142.00
1/1/2007,BMW,Fullsize,BMW 7-Series,14773.00
1/1/2008,BMW,Fullsize,BMW 7-Series,12276.00
1/1/2009,BMW,Fullsize,BMW 7-Series,9254.00
1/1/2010,BMW,Fullsize,BMW 7-Series,12253.00

我注意到只在我的机器上将spark.executor.memory更改为16GB，前10行是正确的，但将其设置为超过16GB将导致损坏。

还有什么：在我的一台具有256GB内存的服务器上，将其设置为16GB也会产生此错误。相反，将其设置为48GB将使其正常工作。另外，我试图打印dataFrame.rdd，它表明RDD的内容是正确的，而数据帧本身则不是。

有没有人对这个问题有任何想法？

谢谢！

Answer 1

事实证明，在Spark 1.5.1中使用Kyro进行序列化是一个错误。 1.5.2。

https://github.com/databricks/spark-csv/issues/285#issuecomment-193633716

这在1.6.0中已修复。它与spark-csv无关。

Answer 2

我运行了你的代码并能够使用默认配置Spark从hdfs获取csv数据。

我更新了以下代码的代码：

val conf = new org.apache.spark.SparkConf().setMaster("local[2]").setAppName("HDFSReadDemo");
val sc = new org.apache.spark.SparkContext(conf); 
val sql_context = new org.apache.spark.sql.SQLContext(sc)

用println（）代替记录器。

dataFrame.head(10).foreach(x => println(x))

因此Spark内存配置（即spark.executor.memory）

应该没有错

如果在将CSV导入DataFrame时未正确设置spark.executor.memory，则字符会损坏

2 个答案: