Question

我想在hdfs中创建镶木地板文件，然后通过hive作为外部表读取它。在编写镶木地板文件时，我对火花壳的阶段失败感到震惊。

Spark版本：1.5.2 Scala版本：2.10.4 Java：1.7

输入文件：（employee.txt）

1201，萨蒂什南比亚，25
1202，克里希纳，28
1203 amith，39
1204，贾韦德，23个
1205，prudvi，23

在Spark-Shell中：

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
val employee = sc.textFile("employee.txt")
employee.first()
val schemaString = "id name age"
import org.apache.spark.sql.Row;
import org.apache.spark.sql.types.{StructType, StructField, StringType};
val schema = StructType(schemaString.split(" ").map(fieldName ⇒ StructField(fieldName, StringType, true)))
val rowRDD = employee.map(_.split(",")).map(e ⇒ Row(e(0).trim.toInt, e(1), e(2).trim.toInt))
val employeeDF = sqlContext.createDataFrame(rowRDD, schema)
val finalDF = employeeDF.toDF();
sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")
var WriteParquet= finalDF.write.parquet("/user/myname/schemaParquet")

当我输入我得到的最后一个命令时，

ERROR

SPARK APPLICATION MANAGER

我甚至试过增加执行程序内存，它仍然失败。同样重要的是，finalDF.show（）产生相同的错误。所以，我相信我在这里犯了一个逻辑错误。

感谢您的支持

Answer 1

这里的问题是您正在创建一个模式，其中所有字段/列类型默认为 StringType 。但是在传递模式中的值时， Id 和 Age 的值将按照code.Hence转换为Integer，在运行时抛出Matcherror。

架构中列的数据类型应与传递给它的值的数据类型相匹配。请尝试以下代码。

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
val employee = sc.textFile("employee.txt")
employee.first()
//val schemaString = "id name age"
import org.apache.spark.sql.Row;
import org.apache.spark.sql.types._;
val schema = StructType(StructField("id", IntegerType, true) :: StructField("name", StringType, true) :: StructField("age", IntegerType, true) :: Nil)
val rowRDD = employee.map(_.split(" ")).map(e ⇒ Row(e(0).trim.toInt, e(1), e(2).trim.toInt))
val employeeDF = sqlContext.createDataFrame(rowRDD, schema)
val finalDF = employeeDF.toDF();
sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")
var WriteParquet= finalDF.write.parquet("/user/myname/schemaParquet")

此代码应运行良好。

无法使用spark shell在hdfs中创建镶木地板文件

1 个答案: