应用错误收集

我刚开始使用Parquet，我发现文档有点稀疏。我订阅了Safari Books Online，我查看了所有包含Parquet信息的书籍，甚至我看过的书籍也只包含几个段落。我正在努力弄清楚从哪里开始。

问题

我正在解析4亿个HTML文件。每个文件代表一个人（它是一个简历）。对于每个文件，将创建JSON对象，其包含顶级人员数据（例如，姓名，职位，位置）以及包含经验，教育和技能的嵌套结构。现在，我们的目标是将这些对象放在Parquet文件中，存储在S3上，使用Presto或顶部的一些分布式SQL查询引擎进行分析。我希望做的是解析HTML并将其放入Parquet文件中，而不使用JSON作为中介。但是，我并不是100％确定如何做到这一点，我找不到任何东西让我从这里开始。我在想，解析每个HTML文件，创建JSON对象，并写入Parquet文件。这样我就不必创建一堆JSON文件，然后从它们创建Parquet文件（保存自己的步骤），但是甚至不确定如何编写存储在S3上的文件，或者我是否在考虑所有这一切都正确。

只是在这里寻找一些关于入门的指导。关于什么是最佳实践的优秀资源，如何实现，等等。我想如果人们使用Parquet（似乎就是这种情况），必须有一些我遗漏的文档。

使用jsoup将HTML解析为S3上的Parquet文件

0 个答案: