标签: batch-file amazon-s3
我在AWS S3中有较大的CSV或JSON文件,例如GB。数组中的每一行或json对象都代表我们数据模型中的一个实体,该实体最多可以为MB。稍后应在该实体中通过ID在第二秒钟内检索该实体。 我最初的想法是将原始文件分成与实体数量一样多的文件,并用ID命名。因此,不仅要分割文件,还要解析文件。我可以使用一些繁重的工具,例如Apache Spark,但越轻越好。 是否有任何轻量级工具可以代替它?还是有更好的方法? 要求用户分割数据文件并同时并行上传多个文件不是理想的选择。