Hadoop与文档捕获软件的集成

时间:2018-09-26 09:20:51

标签: hadoop hortonworks-data-platform data-ingestion hortonworks-sam

我们需要从我们的图像捕获软件向Hadoop(Hortonworks)发送文档:图像捕获软件发布带有元数据的PDF文档。  我对HDP不太了解。是否有任何REST服务或任何工具能够通过向文档提供元数据来将文档添加到Hadoop。

请帮助

1 个答案:

答案 0 :(得分:0)

Hadoop HDFS同时具有WebHDFS和NFSGateway

但是,如果您可以更好地控制数据到达那里的位置,通常建议不要立即将原始数据立即存储到HDFS上。这样,您可以更好地控制审核数据写入位置和方式的方式。

例如,您可以使用Apache Nifi处理器启动ListenHTTP处理器,读取文档数据,对其进行解析,过滤和扩充,然后可以选择写入HDFS或许多其他目标。