使用Parquet格式

时间:2016-12-09 02:54:29

标签: hadoop apache-spark hive apache-spark-sql parquet

首先,我创建一个像spark1.6.1这样的表:

hiveContext.createDataFrame(rows, schema).write.mode(SaveMode.Append).saveAsTable(tableName)

第二,当我从我的表中查询时:

hive> select dt from tablename limit 200;

它打印了很多这样的日志: 2016-12-9 10:41:11 INFO:parquet.hadoop.InternalParquetRecordReader:块在内存中读取1 ms。行数= 13 2016-12-9 10:41:11 WARN:parquet.hadoop.ParquetRecordReader:由于上下文不能初始化计数器不是TaskInputOutputContext的实例,而是org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl 2016-12-9 10:41:11 INFO:parquet.hadoop.InternalParquetRecordReader:RecordReader初始化后将共读取20条记录。 2016-12-9 10:41:11 INFO:parquet.hadoop.InternalParquetRecordReader:在第0行。阅读下一个块 2016-12-9 10:41:11 INFO:parquet.hadoop.InternalParquetRecordReader:块在内存中读取1 ms。行数= 20 2016-12-9 10:41:11警告:parquet.hadoop.Par 2016-11-26

2016-11-26
2016-09-02
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13
2016-11-13

以粗体显示字体,这是我的结果的一部分。但它与日志信息混合

但是当查询比较时:

hive> select dt from tablename group dt;

很好

如何抑制我不需要的日志?

1 个答案:

答案 0 :(得分:0)

你需要使用这个函数“sparkContext.setLogLevel(”WARN“)”?