我需要为我的项目设置流媒体环境。 数据集是下一个:http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf
我计划使用PostgreSQL和Apache Kafka作为源,然后使用Apache Spark或Flink连接到Kafka,但问题是数据集大约是10000个文本文件。
所以,问题是将~10000个文件(每个大约500行)导入一个表格的最有效/优雅的方法是什么。
目前我已尝试使用 psycopg2 和 executemany 方法(超级慢)和带有JDBC连接器的Apache FLink作业的python脚本(速度很快,但不知道如何在一个Job中迭代10000多个文件。
答案 0 :(得分:1)
一个简单的解决方案是使用spark读取文件夹并打开每个分区的odbc连接并迭代并写入每一行。