我有Apache Drill查询未压缩的JSON文件没有问题,但我正在努力使用gz压缩的JSON档案。
我的理解是Drill使用我认为有能力处理gz文件的Hadoop文件连接器,但似乎Drill的JSON查询功能总是锁定到.json文件。
我尝试过这样的事情:
"formats": {
"gz": {
"type": "json"
}
}
但是,收到文件未找到错误。还试过这个:
"formats": {
"json": {
"type": "json",
"extensions": [
"gz"
]
}
}
这会导致"无效的JSON映射"错误。
答案 0 :(得分:1)
这是在最新的主分支(0.8)上修复的错误: https://issues.apache.org/jira/browse/DRILL-1871
我的测试证实一切正常,仍然可以看到问题,但会得到一些结果。