将数据批量/批量加载到Apache Geode(Gemfire)有哪些选择?

时间:2017-07-18 03:43:39

标签: gemfire spring-data-gemfire geode

我们需要将数百万个键/值加载到Apache Geode中,我们想知道可用的选项有哪些。我们的价值恰好在256kb范围内。

2 个答案:

答案 0 :(得分:2)

根据您的应用程序要求/ SLA或是否需要执行转换或其他转换等,有多种选择。

  1. 开箱即用,Apache Geode提供Cache & Region Snapshot Service。例如,当您想要将数据从1个现有Apache Geode集群迁移到另一个集群时,这非常有用。如果您的数据来自外部源,如RDBMS,则不太有用。

  2. 另一种选择是根据需要懒洋洋地加载数据。这可以通过使用Region实现CacheLoader interfaceregistering CacheLoader来实现。显然,您可以创建一个CacheLoader实现,除了根据当前请求加载和返回单个兴趣值之外,还可以根据某些规则/标准智能地加载数据块。

  3. 很多时候,用户创建一个外部的自定义转换过程或工具来提取,转换和批量加载(ETL)一堆数据到Apache Geode。这在复杂的用例或要求中很常见。但是,建议使用像......

  4. 这样的框架/工具
  5. Spring XD(现在Spring Cloud Data Flow Pivotal的Cloud Foundry (PCF))是用于创建基于流的应用程序的优秀ETL工具和管道。 Spring XD / SCDF为“sources”和“sinks”提供了许多不同的选项(例如GemFire Server)。除来源& 接收,您甚至可以“点击”流来处理带有“Processors”的数据。因此,无论您是在进行实时流式处理还是面向批处理的数据操作(例如批量加载), Spring XD 都是一个不错的选择。

  6. 我相信Google可能会提供有关如何使用像Apache Geode这样的KeyValue商店执行ETL的其他答案。

  7. 希望这有助于您前进。

    干杯, 约翰

答案 1 :(得分:1)

加载Gemfire区域的选项非常有限。

1)春季批处理:

  • 创建Gemfire编写器以加载数据并删除数据
  • 创建批处理配置并将其放置

2)Apache Spark