在我们的存储层中,我们添加json文档并以日志结构化方式(通过parquet-cpp和我们的dremel文件实现)以镶木地板格式存储它们,以提高写入效率。这意味着在两个或多个镶木地板文件中,单个documentID(documentID是其中一个列属性)可以有多个行条目。 documentID应该是唯一/主键。我打算通过parquet-hive存储处理程序以及spark-sql阅读这些镶木地板文件。我的问题是,有没有已知的处理日志结构木地板数据的方法?或者我是否需要修改parquet-mr实现来做同样的事情。