将12000个文件导入一个表

时间:2016-06-03 16:57:38

标签: java python apache-spark apache-flink

我需要为我的项目设置流媒体环境。 数据集是下一个:http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf

我计划使用PostgreSQL和Apache Kafka作为源,然后使用Apache Spark或Flink连接到Kafka,但问题是数据集大约是10000个文本文件。

所以,问题是将~10000个文件(每个大约500行)导入一个表格的最有效/优雅的方法是什么。

目前我已尝试使用 psycopg2 executemany 方法(超级慢)和带有JDBC连接器的Apache FLink作业的python脚本(速度很快,但不知道如何在一个Job中迭代10000多个文件。

1 个答案:

答案 0 :(得分:1)

一个简单的解决方案是使用spark读取文件夹并打开每个分区的odbc连接并迭代并写入每一行。