标签: hadoop sequencefile
Hadoop SequenceFile基本上是键/值对的集合。在我的应用程序中,我需要使用来自Kafka的事件并处理可能的重复项。我可以使用SequenceFile进行重复数据删除吗?也就是说,在Kafka消费者中,我将使用Kafka消息,并将每个ConsumerRecord存储在本地SequenceFile(没有Hadoop)中。这样,重复项将在SequenceFile中删除,我可以将此文件发送到HDFS以便以后进一步处理。