pdf - 流式传输PDF文件的最佳方式

时间：2015-10-27 15:17:21

标签： pdf apache-kafka apache-storm

通过消息队列流式传输PDF文件的好方法是什么？

在KAFKA这样做是不是一个好主意？

以下是我的想法：

请注意，上述步骤只是可能性。如果您有更好的实施，请建议。

答案 0 :(得分：2)

我将其分为三个问题：

这样你就可以进行一次摄取，但是随着对数据和问题的理解的发展，你可以迭代解析和分析。

为了摄取，我将实际文件推送到一个广泛可访问的位置，例如HDFS或HTTP服务器，然后通过Kafka发送一条短消息，表明已经添加了一个给定位置的文件并准备就绪用于解析。解析文件后，将该信息存储在数据库中，以便在解析算法发生变化时，可以对整个摄取文件集再次进行迭代。