我的问题的一些背景 正如你在这里看到的: https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c
有2个"门"将数据加载到HDFS
使用此拓扑作为示例,加载托管在FTP服务器信息HDFS上的批量脱机数据的最佳做法是什么?
我们还假设不需要对文件执行任何更改,我们需要将它以与存储在FTP服务器中相同的结构存储在HDFS中。
思想?
答案 0 :(得分:1)
默认情况下,Kafka并未完全配置为传输“文件大小”数据。至少,不是一条消息中的整个文件。也许打破分界线,但是你需要重新排序它们并将它们放回HDFS中。
根据我的经验,我从FTP服务器上看到了一些选项。
Vanilla Hadoop,无需额外软件
需要其他软件
我们需要将它以与存储在FTP服务器中相同的结构存储在HDFS中。
如果这些是小文件,最好至少在上传到HDFS之前将文件压缩为Hadoop支持的存档格式