我正在使用具有增量加载功能的平面文件数据源,并且根据我的加载方式看到不同的性能。我有3个数据集{d1,d2,d3},d1和d2的大小相同,d3大3倍。我在具有16GB内存的机器上进行以下测试:
另一方面,如果我单次加载d1 + d2 + d3,则总时间为5m29s并且没有内存问题。
在进行增量与单负载时,这只是内存开销的问题还是我应该更好地管理性能?
答案 0 :(得分:2)
已经实现了增量加载以支持实时,并且它与正常加载具有不同的逻辑。
其他数据已预先加载到内存中,这就是为什么需要更多内存。在此预加载期间,架构仍然可用,一旦新数据完全预加载并完成第一次质量检查,架构将被写入锁定并完成实际加载。这允许将模式锁定几毫秒。
增量加载适用于实时的“少量”附加数据,而不适用于您的场景。
慢的时候不是因为你的内存不足(很多GC的) ?
希望有所帮助。
PS:如果您需要其他支持,请直接与支持小组联系。