应用错误收集

将12000个文件导入一个表

时间：2016-06-03 16:57:38

标签： java python apache-spark apache-flink

我需要为我的项目设置流媒体环境。数据集是下一个：http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf

我计划使用PostgreSQL和Apache Kafka作为源，然后使用Apache Spark或Flink连接到Kafka，但问题是数据集大约是10000个文本文件。

所以，问题是将~10000个文件（每个大约500行）导入一个表格的最有效/优雅的方法是什么。

目前我已尝试使用 psycopg2 和 executemany 方法（超级慢）和带有JDBC连接器的Apache FLink作业的python脚本（速度很快，但不知道如何在一个Job中迭代10000多个文件。

1 个答案:

答案 0 :(得分：1)

一个简单的解决方案是使用spark读取文件夹并打开每个分区的odbc连接并迭代并写入每一行。