通过消息队列流式传输PDF文件的好方法是什么?
在KAFKA这样做是不是一个好主意?
以下是我的想法:
请注意,上述步骤只是可能性。如果您有更好的实施,请建议。
答案 0 :(得分:2)
我将其分为三个问题:
这样你就可以进行一次摄取,但是随着对数据和问题的理解的发展,你可以迭代解析和分析。
为了摄取,我将实际文件推送到一个广泛可访问的位置,例如HDFS或HTTP服务器,然后通过Kafka发送一条短消息,表明已经添加了一个给定位置的文件并准备就绪用于解析。解析文件后,将该信息存储在数据库中,以便在解析算法发生变化时,可以对整个摄取文件集再次进行迭代。