动态块大小的Spring Batch自定义完成策略

时间:2016-05-23 12:06:48

标签: java spring-batch chunks

上下文

我们有一个批处理作业,可以将本地化的国家/地区名称(即国家/地区名称的翻译)从外部名称复制到我们的数据库。我们的想法是在1个块中处理单个国家的所有本地化国家名称(即第一个块 - 安道尔的所有翻译,下一个块 - U.A.E.的所有翻译等)。我们使用JdbcCursorItemReader来读取外部数据+一些oracle分析函数,以提供该国家可用的翻译总数:类似

select country_code, language_code, localized_name, COUNT(1) OVER(PARTITION BY c_lng.country_code) as lng_count
from EXT_COUNTRY_LNG c_lng
order by c_lng.countty_code, c_lng.language_code

问题

因此,通过块切割此输入看起来很简单:当您已读取lng_count中指定的确切行数并使用下一个读取行开始新行时停止块,但似乎不是实际上很简单:(

首先要尝试的是自定义完成策略。但问题是,它无法访问最后一项,由ItemReader读取 - 您应该明确地将其置于读者的上下文中并将其恢复到策略中。不喜欢它,因为它需要额外的读者修改/添加读者听众。此外,我不喜欢来回序列化/反序列化的相同项目。我不觉得JobContext / StepContext是这类数据的好地方。

还有RepeatContext对于此类数据看起来更好的地方,但我无法轻松实现 ......

所以最后我们最终得到了这样的解决方案:

@Bean(name = "localizedCountryNamesStep")
@JobScope
public Step insertCountryStep(
        final StepBuilderFactory stepBuilderFactory,
        final MasterdataCountryNameReader countryNameReader,
        final MasterdataCountryNameProcessor countryNameProcessor,
        final MasterdataCountryNameWriter writer) {
    /* Use the same fixed-commit policy, but update it's chunk size dynamically */
    final SimpleCompletionPolicy policy = new SimpleCompletionPolicy();
    return stepBuilderFactory.get("localizedCountryNamesStep")
            .<ExtCountryLng, LocalizedCountryName> chunk(policy)
            .reader(countryNameReader)
            .listener(new ItemReadListener<ExtCountryLng>() {

                @Override
                public void beforeRead() {
                    // do nothing
                }

                @Override
                public void afterRead(final ExtCountryLng item) {
                    /* Update the cunk size after every read: consequent reads 
                    inside the same country = same chunk do nothing since lngCount is always the same there */
                    policy.setChunkSize(item.getLngCount());
                }

                @Override
                public void onReadError(final Exception ex) {
                    // do nothing
                }
            })
            .processor(countryNameProcessor)
            .writer(writer)
            .faultTolerant()
            .skip(RuntimeException.class)
            .skipLimit(Integer.MAX_VALUE) // Batch does not support unlimited skip
            .retryLimit(0) // this solution disables only retry, but not recover
            .build();
}

它正在运行,它需要最少的代码更改,但它对我来说仍然有点难看。所以我想知道,当ItemReader已经提供了所有必需的信息时,还有另一种优雅的方法可以在Spring Batch中执行动态块大小吗?

1 个答案:

答案 0 :(得分:3)

最简单的方法是简单地按国家/地区分区。这样每个国家都会有自己的步骤,你也可以跨越国家以提高绩效。

如果它需要是一个读者,您可以包装代理PeekableItemReader并扩展SimpleCompletionPolicy以实现目标。

public class CountryPeekingCompletionPolicyReader extends SimpleCompletionPolicy implements ItemReader<CountrySpecificItem> {

    private PeekableItemReader<? extends CountrySpecificItem> delegate;

    private CountrySpecificItem currentReadItem = null;

    @Override
    public CountrySpecificItem read() throws UnexpectedInputException, ParseException, NonTransientResourceException, Exception {
        currentReadItem = delegate.read();
        return currentReadItem;
    }

    @Override
    public RepeatContext start(final RepeatContext context) {
        return new ComparisonPolicyTerminationContext(context);
    }

    protected class ComparisonPolicyTerminationContext extends SimpleTerminationContext {

        public ComparisonPolicyTerminationContext(final RepeatContext context) {
            super(context);
        }

        @Override
        public boolean isComplete() {
            final CountrySpecificItem nextReadItem = delegate.peek();

            // logic to check if same country
            if (currentReadItem.isSameCountry(nextReadItem)) {
                return false;
            }

            return true;
        }
    }
}

然后在您的上下文中定义:

<batch:tasklet>
    <batch:chunk chunk-completion-policy="countrySpecificCompletionPolicy" reader="countrySpecificCompletionPolicy" writer="someWriter" />
</batch:tasklet>

<bean id="countrySpecificCompletionPolicy" class="CountryPeekingCompletionPolicyReader">
     <property name="delegate" ref="peekableReader" />
</bean>


<bean id="peekableReader" class="YourPeekableItemReader" />

编辑:回顾你的问题,分区让我觉得最干净。使用partitioned step,每个ItemReader(确保scope="step")将从步执行上下文传递单个countryName。是的,您需要一个自定义Partitioner类来构建执行上下文映射(每个国家/地区一个条目)和一个大到足以容纳您最大工作单元的硬编码提交间隔,但之后一切都是样板,并且由于每个从属步骤只是一个块,因此对于可能遇到问题的任何国家来说,重启应该是相对轻而易举的。