在一个记录(JSON对象)中,我们有
{
"name": "ID",
"value": "4260567,4260556"
}
在另一条记录中,我们有
{
"name": "ID",
"value": {}
}
我的问题是,在Apache Drill中无法查询此数据集,因为一个字段使用了不同的类型 - 一个字符串中的字符串和其他字段中的对象。我也无法用""替换{};因为还有其他字段实际上应该是对象,这会导致相同的问题。
我的想法是编写一些代码来加载一批数据,然后逐字段交叉检查记录并更正这些类型不匹配。例如,如果它看到此ID字段中的大多数条目都是字符串,并且只有一些是空对象,则它会将这些条目转换为空字符串。如果它看到某些值是数组/列表,并且同一字段中的其他值是单个对象,则它会将这些单个对象转换为数组/列表。这样的事情。
然而,对于一个数据集来说,这是一项相当大的工作。我有什么其他方法可以解决这个问题吗?