csv - 将CSV文件复制到HDFS并保留文件名

很可能这是一个虚拟问题，但我找不到合适的例子。

如果我迷路了，请纠正我的思维方式。为了继续，我创建了一个作业和流来触发它：

job create hdfsjob 
    --definition "filepollhdfs --directory=/tmp/xd --names=*" --deploy
stream create csvStream 
    --definition "file --ref=true --dir=/data/in --pattern=*.txt 
    > queue:job:hdfsjob" --deploy

我可以通过xd源filepollhdfs中的fileName和fileExtension管理文件名和扩展名，但是如何保留它的原始名称？

为了防止翻转，最好将rollover参数设置为一个非常高的值，还是可以破坏内存消耗？例如？

理想的做法是遍历源目录结构并在hdfs中重新创建相同的结构。

将CSV文件复制到HDFS并保留文件名

0 个答案: