Question

我有一个未压缩的Parquet文件，其中包含“爬虫日志”类型的数据。

我通过PySpark将其导入Spark中

sq = SQLContext(sc) p = sq.read.parquet('/path/to/stored_as_parquet/table/in/hive') p.take(1).show()

这表示源数据中的字符串转换为

Row(host=bytearray(b'somehostname'), (checksum=bytearray(b'stuff'))...)

当我做p.dtypes时，我看到了

((host binary), (checksum binary) ....).

我该怎么做才能避免这种转换，或者我如何转换回我需要的

即。当我做p.dtypes我想看到

((host string), (checksum string) ....)

感谢。

Answer 1

我遇到了同样的问题。添加

sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

创建我的SqlContext后立即为我解决了。

Answer 2

对于spark 2.0或更高版本

设置运行时选项

spark.conf.set("spark.sql.parquet.binaryAsString","true")

Answer 3

对于使用 SparkSession 的人来说：

spark = SparkSession.builder.config('spark.sql.parquet.binaryAsString', 'true').getOrCreate().newSession()