我刚开始使用Parquet,我发现文档有点稀疏。我订阅了Safari Books Online,我查看了所有包含Parquet信息的书籍,甚至我看过的书籍也只包含几个段落。我正在努力弄清楚从哪里开始。
问题
我正在解析4亿个HTML文件。每个文件代表一个人(它是一个简历)。对于每个文件,将创建JSON对象,其包含顶级人员数据(例如,姓名,职位,位置)以及包含经验,教育和技能的嵌套结构。现在,我们的目标是将这些对象放在Parquet文件中,存储在S3上,使用Presto或顶部的一些分布式SQL查询引擎进行分析。我希望做的是解析HTML并将其放入Parquet文件中,而不使用JSON作为中介。但是,我并不是100%确定如何做到这一点,我找不到任何东西让我从这里开始。我在想,解析每个HTML文件,创建JSON对象,并写入Parquet文件。这样我就不必创建一堆JSON文件,然后从它们创建Parquet文件(保存自己的步骤),但是甚至不确定如何编写存储在S3上的文件,或者我是否在考虑所有这一切都正确。
只是在这里寻找一些关于入门的指导。关于什么是最佳实践的优秀资源,如何实现,等等。我想如果人们使用Parquet(似乎就是这种情况),必须有一些我遗漏的文档。