使用Apache Drill查询压缩的gz文件

时间:2014-12-14 07:25:22

标签: json hadoop gz apache-drill

我有Apache Drill查询未压缩的JSON文件没有问题,但我正在努力使用gz压缩的JSON档案。

我的理解是Drill使用我认为有能力处理gz文件的Hadoop文件连接器,但似乎Drill的JSON查询功能总是锁定到.json文件。

我尝试过这样的事情:

"formats": {
  "gz": {
    "type": "json"
  }
}

但是,收到文件未找到错误。还试过这个:

"formats": {
  "json": {
    "type": "json",
    "extensions": [
       "gz"
     ]
  }
}

这会导致"无效的JSON映射"错误。

1 个答案:

答案 0 :(得分:1)

这是在最新的主分支(0.8)上修复的错误: https://issues.apache.org/jira/browse/DRILL-1871

我的测试证实一切正常,仍然可以看到问题,但会得到一些结果。