Pyspark:读取多个具有不同结构的文件并将其写入Hive

时间:2020-10-15 13:11:17

标签: apache-spark pyspark hive parallel-processing

我有一种情况,我需要读取文件(超过100个),配置文件中的文件名并在 for循环(序列)中处理这些文件并将其写入配置单元表。现在,我编写了两个函数(一个用于使用pandas进行转换,另一个用于使用pyspark将数据加载到Hive表中)。性能不好,因为它是按顺序加载的。

每个文件的结构完全不同。我想在pyspark中转换此功能,还需要并行处理这些文件。

IEnumerable<int> values = DoSomethingX();
if (!(values is IList<int>) && !(values is ICollection<int>)) {
    values = values.ToList();
}
SendToUser(values);
PrintOut(values);

我想并行化pyspark中的文件提取和配置单元表加载。如何实现?

谢谢

0 个答案:

没有答案