很可能这是一个虚拟问题,但我找不到合适的例子。
如果我迷路了,请纠正我的思维方式。 为了继续,我创建了一个作业和流来触发它:
job create hdfsjob
--definition "filepollhdfs --directory=/tmp/xd --names=*" --deploy
stream create csvStream
--definition "file --ref=true --dir=/data/in --pattern=*.txt
> queue:job:hdfsjob" --deploy
我可以通过xd源filepollhdfs中的fileName和fileExtension管理文件名和扩展名,但是如何保留它的原始名称?
为了防止翻转,最好将rollover参数设置为一个非常高的值,还是可以破坏内存消耗?例如?
理想的做法是遍历源目录结构并在hdfs中重新创建相同的结构。