我正在寻找可用于处理AWS lambda中的大型存档文件的存档文件类型。存档中的条目本身并不是很大,最大可能是100mb,但其中可能有很多。我的策略是创建一个lambda来处理每个条目,其中lambda的参数是s3中文件的路径以及存档中条目的字节范围。这将允许处理每个条目,而无需加载整个文件。我可以编写一种格式来处理此问题,但我认为这样的事情可能已经存在。
不是必需的,但希望在C#中使用这些文件。
答案 0 :(得分:0)
只要文件不那么大,我可以建议采用以下方法。
/tmp
转到第4步中有文件。/tmp
中没有文件,请从S3下载新文件。这里有一些限制: -您不必关心文件的处理顺序以及文件中的行。 -偶尔对相同数据块进行多次处理不会造成任何问题。 -您可能想在外部也跟踪处理过的文件
Scheduler
class of the sosw
软件包中使用了非常相似的方法。这是不是C#的Python程序包,但是这个想法可以为您提供帮助。