应用错误收集

我在AWS S3中有较大的CSV或JSON文件，例如GB。数组中的每一行或json对象都代表我们数据模型中的一个实体，该实体最多可以为MB。稍后应在该实体中通过ID在第二秒钟内检索该实体。我最初的想法是将原始文件分成与实体数量一样多的文件，并用ID命名。因此，不仅要分割文件，还要解析文件。我可以使用一些繁重的工具，例如Apache Spark，但越轻越好。是否有任何轻量级工具可以代替它？还是有更好的方法？要求用户分割数据文件并同时并行上传多个文件不是理想的选择。

将CSV / JSON文件拆分为AWS S3中每个行/对象的文件

0 个答案: