流式传输PDF文件的最佳方式

时间:2015-10-27 15:17:21

标签: pdf apache-kafka apache-storm

通过消息队列流式传输PDF文件的好方法是什么?

在KAFKA这样做是不是一个好主意?

以下是我的想法:

  1. 从文件放置位置获取PDF文件。
  2. 通过Kafka流式传输文件。
  3. 解析文件以进行一些低级别的信息检索和清理。这可能是在Storm拓扑或Spark中完成的。也许是一些自定义Map Reduce代码。
  4. 最后,我想在这些文件上运行一些机器学习算法。
  5. 请注意,上述步骤只是可能性。如果您有更好的实施,请建议。

1 个答案:

答案 0 :(得分:2)

我将其分为三个问题:

  1. 摄入
  2. 解析
  3. 分析
  4. 这样你就可以进行一次摄取,但是随着对数据和问题的理解的发展,你可以迭代解析和分析。

    为了摄取,我将实际文件推送到一个广泛可访问的位置,例如HDFS或HTTP服务器,然后通过Kafka发送一条短消息,表明已经添加了一个给定位置的文件并准备就绪用于解析。解析文件后,将该信息存储在数据库中,以便在解析算法发生变化时,可以对整个摄取文件集再次进行迭代。