我只是想知道有没有人遇到过你需要从excel导入或读取数据到Hadoop的场景?有没有像Flume Excel这样的东西?
顺便说一句,我知道我可以将excel文件转换为csv然后处理它。真的只是想在这里进一步探索水槽来源。答案 0 :(得分:2)
Spooling Directory Source可以配置为从Excel文件(或任何其他格式)读取。正如文档所述,这个源可以配置EventDeserializer - 实现将文件解析为事件的逻辑的类。
我不认为有人已经实现了这样的反序列化器,但对于Apache POI库来说似乎很容易。