如何使用"Download File"
组件仅下载远程更新的新文件或文件?
考虑如下图表:
其中File Download
定义为:
${S3_OR_DATA_DIR_LOCATION}
中有很多* .csv文件;我每天都加一个)。
如何确保GoodData仅下载已更新的新文件和文件?选项"Overwrite existing files"
False
会选择吗?或者只会下载新文件而不更新已更新的现有文件?
答案 0 :(得分:1)
文件下载 CloudConnect组件本身不支持仅下载新文件的操作,该文件出现在源文件夹中,因为它没有任何先前的状态记忆机制,但是因为它有输入端口,所以可以使用文件列表 CloudConnect组件自己实现这种机制,只需要一些Joformat,一些Joiner和CSV Writer CloudConnect组件的帮助。这样,您可以确定源文件夹的内容并将其写入纯文本文件中。可以设计机制,下一个处理将从上一次运行中读取状态文件并确定新文件是什么,然后将新文件列表发送到文件下载CloudConnect组件的输入端口< /强>
另一种如何处理新文件的方法,比前一篇文章中描述的过程更简单,因此常用,基于利用源文件夹中的文件夹结构 ,其中将有一个新文件的专用文件夹和另一个已处理文件的专用文件夹。然后,CloudConnect ETL过程本身将从其专用源文件夹中读取新文件,并且ETL过程的最后一个阶段将包含文件复制/移动 CloudConnect组件,用于从中传输已处理的新文件专用文件夹到包含所有已处理文件的文件夹。