我们如何在Hadoop中导入视频,音频或图像,并可以进行进一步的分析。

时间:2017-11-14 04:14:08

标签: hadoop hive apache-pig

我知道如何使用Pig,hive,sqoop使用Json加载器和Json serde导入和分析hadoop中的结构化和半结构化数据,但是如何导入非结构化数据,如视频或音频或图像,以及如何对其进行进一步分析。用简单的一步一步的方式解释,如果你有任何分析非结构化数据的用例,那将会有很大的帮助。谢谢!

1 个答案:

答案 0 :(得分:0)

由于Hadoop不能很好地处理小文件,因此一种方法可能是将二进制文件分组为少量大文件(以避免处理 有大量的小文件。)

为了做到这一点,您可以使用自定义UDF将二进制文件(图像,音频,视频等)转换为序列文件,这些UDF将它们聚合并存储到HDFS中。

以下书籍Pig Design Patterns提供了有关该主题的一些设计模式(参见第2章)。

https://www.packtpub.com/mapt/book/big_data_and_business_intelligence/9781783285556

github上提供了一些代码snipets。

https://github.com/pradeep-pasupuleti/pig-design-patterns/blob/master/Chapter2

希望这有帮助!