Flink批处理ReadCSV - zip文件

时间:2016-11-30 20:45:26

标签: apache-flink

我正在编写基于的批处理 https://github.com/dataArtisans/flink-training-exercises/blob/master/src/main/java/com/dataartisans/flinktraining/exercises/dataset_java/mail_count/MailCount.java

在下面的代码中,输入必须是.csv,否则我会收到错误。我尝试了一个带有csv的.zip文件。在MailCount.java中,我看到readCsvFile接受.gz文件作为输入并且工作正常。你能帮忙吗?

env.readCsvFile(输入)                 .ignoreFirstLine()                 .includeFields(场)                 .types(String.class,String.class);

由于 阿鲁娜

1 个答案:

答案 0 :(得分:1)

如果文件具有适当的扩展名,Flink支持从盒子中读取压缩文件。但是,并非所有类型的压缩都受支持。您可以在[1]中找到支持的压缩类型列表。

例如,支持.gz,这就是为什么示例有效,但.zip不是,所以你得到一个错误。

祝你好运, 康斯坦丁

[1] https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/index.html#read-compressed-files