file - 如何在火花集群上运行外部可执行文件

我有一个可执行文件（黑匣子），它在我的 linux 本地文件系统中运行。可执行文件接受多个输入文件并生成多个输出文件。

现在，我在 HDFS 中有更大的数据集，它们应该作为可执行文件的输入。因此，如果我尝试将 hdfs 数据下载到本地文件系统，则可执行文件需要永远处理它们。因此，我想将可执行文件分发到 spark/yarn 所在的位置，并位于所有工作程序/执行程序节点中。然后，我将 HDFS 数据集读入 spark 数据帧并将数据帧写入驱动程序/执行程序的工作目录，我的可执行文件可以读取和处理它们并在驱动程序节点的工作目录中生成输出。

然后我读取驱动程序工作目录中的输出，并根据需要将它们加载到 hive 表中。

对可能的解决方法有任何想法或建议吗？

如何在火花集群上运行外部可执行文件

0 个答案: