我在HDFS中有图像文件,我需要将它们加载到HBase。我可以使用SPARK代替MapReduce来完成此操作吗?如果是这样,请提出建议。 Hadoop生态系统的新手。
我创建了一个MOB类型的Hbase表,其阈值为10MB。 此处介绍如何使用Shell命令行加载数据。 经过一些研究,有一些使用MapReduce的建议,但没有提供很多信息。
答案 0 :(得分:1)
您可以使用Apache Tika ...以及Tika支持的sc.binaryFiles(filesPath)
格式为formats
您需要的
图像格式ImageParser类使用标准的javax.imageio 此功能可从支持的图像格式中提取简单的元数据 Java平台。可以通过以下方式获取更复杂的图像元数据 使用元数据提取器的JpegParser和TiffParser类 库支持从Jpeg和Tiff提取Exif元数据 图片。 和
便携式文档格式PDFParser类解析器可移植文档 使用Apache PDFBox库格式化(PDF)文档。
带有Spark的示例代码,请参见my answer
me在此处给出的另一个示例代码答案,用于加载到hbase中