我必须承认,我不知道如何正确地为此制定标题问题(感谢您提供任何帮助),但是我会在这里尝试更加清楚:
我想通过Spark分发任务,但是我想专门使用一些资源。对数据集的处理顺序没有限制,但是我希望在群集的不同节点中分发和分析的每个批次都使用不同的资源。
我将举一个例子,希望可以使问题更清楚:
想象一下,我必须分析10MLN文本消息才能完成情感分析任务。情感分析由Web服务器提供,该服务器能够通过可通过凭据访问的API在100毫秒内分析一批100条消息。由于我不想浪费数周时间来分析所有内容,因此我们的想法是分发任务。但是我无法分发SAME凭据,因为这会导致RateLimit或过载。 理想的解决方案是在Spark中的每个分区或每个节点使用一个凭据。鉴于凭据可能会更改,因此对于节点它们不是固定的,我该怎么办?