用于处理大型CSV文件的工具

时间:2015-06-25 01:59:06

标签: csv bigdata

我有一个超过800万行的大型CSV文件。我需要处理数据中的时间戳,并通过对属性的各种值进行分组来执行总和/平均等聚合操作。

我使用SQL * Loader将数据导入Oracle,但查询执行和导出结果集花费了太多时间。例如,我需要计算按用户标识符分组的特定类型事件所花费的总时间和平均时间。这涉及sum(max(timestamp)-min(timestamp)) where event='eventType' group by ID等查询。

对所有类型的事件运行此查询并使用TOAD将结果集导出为csv将无法在易处理的时间内完成。

任何替代方案?

0 个答案:

没有答案