应用错误收集

如何使用SPARK将JPG和PDF文件加载到HBASE？

时间：2019-05-09 13:06:10

标签： apache-spark hbase

我在HDFS中有图像文件，我需要将它们加载到HBase。我可以使用SPARK代替MapReduce来完成此操作吗？如果是这样，请提出建议。 Hadoop生态系统的新手。

我创建了一个MOB类型的Hbase表，其阈值为10MB。此处介绍如何使用Shell命令行加载数据。经过一些研究，有一些使用MapReduce的建议，但没有提供很多信息。

1 个答案:

答案 0 :(得分：1)

您可以使用Apache Tika ...以及Tika支持的sc.binaryFiles(filesPath)格式为formats

您需要的

图像格式ImageParser类使用标准的javax.imageio   此功能可从支持的图像格式中提取简单的元数据   Java平台。可以通过以下方式获取更复杂的图像元数据   使用元数据提取器的JpegParser和TiffParser类   库支持从Jpeg和Tiff提取Exif元数据   图片。   和

便携式文档格式PDFParser类解析器可移植文档   使用Apache PDFBox库格式化（PDF）文档。

带有Spark的示例代码，请参见my answer

me在此处给出的另一个示例代码答案，用于加载到hbase中